×

用于聚类的混合模型平均。 (英语) Zbl 1414.62283号

摘要:在基于混合模型的聚类应用程序中,通常会拟合一个系列中的多个模型,并仅报告“最佳”模型的聚类结果。在这种情况下,使用模型选择准则(通常是贝叶斯信息准则)来选择最佳模型。除了最好的模型之外,我们没有丢弃所有模型,而是将在某种意义上接近最佳模型的多个模型平均化,从而产生聚类结果的加权平均值。考虑了两种(加权)平均方法:平均组件成员概率和平均模型。在这两种情况下,Occam的窗口用于确定与最佳模型的接近程度,并在贝叶斯模型平均范式中计算权重。在某些情况下,我们需要在平均之前合并组件;我们介绍了一种基于调整后的Rand指数的混合成分合并方法。通过对真实数据和模拟数据的一系列高斯混合模型,说明了我们基于模型的聚类平均方法的有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德森·E(1935)《加斯佩半岛的鸢尾花》。公牛Am Iris Soc 59:2-5
[2] Andrews JL,McNicholas PD(2011)《多元t因子分析仪的扩展混合物》。统计计算21(3):361-373·Zbl 1255.62175号
[3] Andrews JL、McNicholas PD、Subedi S(2011),通过多元t分布混合物进行基于模型的分类。计算机统计数据分析55(1):520-529·Zbl 1247.62151号
[4] Banfield JD,Raftery AE(1993),基于模型的高斯和非高斯聚类。生物统计学49(3):803-821·Zbl 0794.62034号
[5] Basford KE,McLachlan GJ(1985),聚类分析背景下的分配率估计。美国统计协会杂志80(390):286-293
[6] Baudry J-P,Raftery AE,Celeux G,Lo K,Gottardo R(2010)《组合混合成分进行聚类》,《计算图形统计杂志》19(2):332-353
[7] Bhattacharya S,McNicholas PD(2014)用于混合物模型选择的LASSO化BIC。高级数据分析分类8(1):45-61·兹比尔1474.62212
[8] Biernacki C,Celeux G,Govaert G(2000)使用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell 22(7):719-725
[9] Bouveyron C,Girard S,Schmid C(2007)高维数据聚类。计算统计数据分析52(1):502-519·Zbl 1452.62433号
[10] Browne RP,McNicholas PD(2013)《混合物:聚类和分类的混合物模型》。R包版本1.0·Zbl 1332.62215号
[11] Browne RP,McNicholas PD(2014)《高维常见主成分的估算》。高级数据分析分类8(2):217-226·Zbl 1474.62183号
[12] Celeux G,Govaert G(1995)高斯简约聚类模型。图案识别28(5):781-793
[13] Dahl DB(2006)通过Dirichlet过程混合模型对表达数据进行基于模型的聚类。In:Do K-A,Müller P,Vannucci M(eds)基因表达和蛋白质组学的贝叶斯推断。剑桥大学出版社,纽约
[14] Dasgupta A,Raftery AE(1998),通过基于模型的聚类检测杂波空间点过程的特征。美国统计学会杂志93:294-302·Zbl 0906.62105号
[15] Dean N,Murphy TB,Downey G(2006)使用未标记数据更新分类规则,以应用于食品真实性研究。J R Stat Soc:序列C 55(1):1-14·Zbl 1490.62155号
[16] Dempster AP,Laird NM,Rubin DB(1977)通过EM算法从不完整数据中获得最大似然。J R Stat Soc:序列B 39(1):1-38·Zbl 0364.62022号
[17] Faraway J(2011)《Faraway:书籍的函数和数据集》,朱利安·法拉韦著。R包版本1.0.5
[18] Fisher RA(1936)分类问题中多重测量的使用。安·尤根7:179-188
[19] Flury B(1997)多元统计第一课程。纽约州施普林格·Zbl 0879.62052号 ·doi:10.1007/978-1-4757-2765-4
[20] Flury B(2012)Flury:来自Flury的数据集,1997年。R包版本0.1-3
[21] Forina M、Armanino C、Castino M、Ubigli M(1986)作为葡萄酒原产地判别方法的多元数据分析。葡萄25:189-201
[22] Fraley C、Raftery AE、Murphy TB、Scrucca L(2012)mclust第4版R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系技术报告597,西雅图·Zbl 1520.62002号
[23] Fraley C、Raftery AE、Scrucca L(2013)mclust:基于模型的聚类、分类和密度估计的正态混合建模。R包版本4.2·Zbl 1520.62002号
[24] Franczak BC,Browne RP,McNicholas PD(2014)移位不对称拉普拉斯分布的混合。IEEE Trans-Pattern Ana Mach Intell 36(6):1149-1157
[25] Fred ALN,Jain AK(2005)使用证据积累结合多个聚类。IEEE Trans-Pattern Ana Mach Intell公司27:835-850
[26] Hastie T,Tibshirani R(1996)高斯混合判别分析。J R Stat Soc:序列B 58:155-176·Zbl 0850.62476号
[27] Hennig C(2010)合并高斯混合成分的方法。高级数据分析分类4:3-34·Zbl 1306.62141号
[28] Hjort NL,Claeskens G(2003)《频繁模型平均估计量》。美国统计协会杂志98(464):879-899·Zbl 1047.62003年
[29] Hoeting JA、Madigan D、Raftery AE、Volinsky CT(1999)《贝叶斯模型平均:教程》。统计科学14(4):382-401·Zbl 1059.62525号
[30] Hoeting JA,Raftery AE,Madigan D(1999),线性回归中的贝叶斯同时变量和变换选择。科罗拉多州立大学统计系9905技术报告·Zbl 0900.62352号
[31] Hubert L,Arabie P(1985)比较分区。J类2:193-218
[32] Hunter DR,Lange K(2004)MM算法教程。美国统计局58:30-37
[33] Kass RE,Raftery AE(1995),贝叶斯因子。美国统计协会杂志90:773-795·Zbl 0846.62028号
[34] Keribin C(2000)混合模型阶数的一致估计。SankhyáIndian J Stat Ser A 62(1):49-66·Zbl 1081.62516号
[35] Krivitsky PN、Handcock MS、Raftery AE、Hoff PD(2009)《利用潜在集群随机效应模型表示社交网络中的度分布、集群和同质性》。Soc网络31(3):204-213
[36] Leroux BG(1992)混合分布的一致估计。安统计1992:1350-1360·Zbl 0763.62015号
[37] Madigan D,Raftery AE(1994)使用Occam窗口的图形模型中模型选择和模型不确定性的说明。美国统计学会杂志89:1535-1546·Zbl 0814.62030号
[38] Mangasarian OL,Street WN,Wolberg WH(1995),通过线性规划进行乳腺癌诊断和预后。运营研究43:570-577·兹比尔0857.90073
[39] MATLAB(2011)。版本7.12.0.635(R2011a)。马萨诸塞州纳蒂克:The MathWorks Inc。
[40] McNicholas PD(2010)使用潜在高斯混合模型的基于模型的分类。《统计计划推断》140(5):1175-1181·Zbl 1181.62095号
[41] McNicholas PD,Browne RP(2013)《如何为混合型变量找到合适的聚类并应用于社会经济分层的讨论》。J R Stat Soc:序列C 62(3):352-353
[42] McNicholas PD、Jampani KR、McDaid AF、Murphy TB、Banks L(2014)pgmm:简约高斯混合模型。R包版本1.1
[43] McNicholas PD,Murphy TB(2008)简约高斯混合模型。统计计算18(3):285-296
[44] McNicholas PD,Murphy TB(2010)通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类。生物信息学26(21):2705-2712·doi:10.1093/bioinformatics/btq498
[45] Milligan GW,Cooper MC(1986)关于层次聚类分析外部标准可比性的研究。Multivar Behav Res 21(4):441-458
[46] Molitor J、Papathomas M、Jerrett M、Richardson S(2010)贝叶斯曲线回归及其在全国儿童健康调查中的应用。生物统计学11(3):484-498·Zbl 1437.62560号 ·doi:10.1093/biostatistics/kxq013
[47] Murray PM、Browne RB、McNicholas PD(2014)《偏态因子分析仪的混合物》。计算统计数据分析77:326-335·兹比尔1506.62132
[48] 邱伟,乔H(2006)具有特定分离度的随机簇的生成。J类23:315-334·Zbl 1336.62189号
[49] 邱伟,乔H(2012)ClusterGeneration:随机聚类生成(具有指定的分离度)。R包版本1.2.9
[50] R核心团队(2013)R:统计计算的语言和环境。奥地利维也纳R统计计算基金会
[51] Raftery AE(1996)《近似贝叶斯因子和广义线性模型中模型不确定性的解释》。生物特征83(2):251-266·Zbl 0864.62049号 ·doi:10.1093/biomet/83.2.251
[52] Raftery AE,Madigan D,Hoeting JA(1998),线性回归模型的贝叶斯模型平均。美国统计学会杂志92:179-191·Zbl 0888.62026号
[53] Raftery,AE;Madigan,D。;沃林斯基,康涅狄格州;Bernardo,JM(编辑);JO Berger(编辑);Dawid,美联社(编辑);Smith,AFM(ed.),《生存分析中模型不确定性的考虑提高了预测性能》(讨论),第5期,323-349(1995),牛津
[54] Rand WM(1971)聚类方法评价的客观标准。美国统计协会杂志66:846-850
[55] Schwarz G(1978)估算模型的维数。安统计6:461-464·Zbl 0379.62005年
[56] Steinley D(2004)Hubert-Arabie调整后的兰德指数的性质。心理方法9:386-396
[57] Stephens M(2000)《混合模型中标签切换的研究》。《统计学会期刊》:B系列62:795-809·兹比尔0957.62020
[58] Strehl A,Ghosh J,Cardie C(2002)集群集合——用于组合多个分区的知识重用框架。J Mach学习研究3:583-617·Zbl 1084.68759号
[59] Volinsky CT、Madigan D、Raftery AE、Kronmal RA(1997)比例风险模型中的贝叶斯模型平均:评估中风风险。J R Stat Soc:序列C 46(4):433-448·Zbl 0903.62093号
[60] Vrbik I,McNicholas PD(2014)基于模型的聚类和分类的简约斜交混合模型。计算统计数据分析71:196-210·Zbl 1471.62202号
[61] Wehrens R、Buydens LM、Fraley C、Raftery AE(2004)通过采样实现基于模型的图像分割和大型数据集聚类。J分类21:231-253·Zbl 1083.62051号
[62] Wolfe JH(1963)《社会领域的对象聚类分析》。加州大学伯克利分校硕士论文
[63] Yeung KY、Fraley C、Murua A、Raftery AE、Ruzzo WL(2001)基因表达数据的基于模型的聚类和数据转换。生物信息学17(10):977-987
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。