文件Zbl 1414.62283-zbMATH打开

用于聚类的混合模型平均。（英语） Zbl 1414.62283号

高级数据分析。分类。，阿达克 9，第2期，197-217（2015）.

摘要：在基于混合模型的聚类应用程序中，通常会拟合一个系列中的多个模型，并仅报告“最佳”模型的聚类结果。在这种情况下，使用模型选择准则（通常是贝叶斯信息准则）来选择最佳模型。除了最好的模型之外，我们没有丢弃所有模型，而是将在某种意义上接近最佳模型的多个模型平均化，从而产生聚类结果的加权平均值。考虑了两种（加权）平均方法：平均组件成员概率和平均模型。在这两种情况下，Occam的窗口用于确定与最佳模型的接近程度，并在贝叶斯模型平均范式中计算权重。在某些情况下，我们需要在平均之前合并组件；我们介绍了一种基于调整后的Rand指数的混合成分合并方法。通过对真实数据和模拟数据的一系列高斯混合模型，说明了我们基于模型的聚类平均方法的有效性。

引用于6文件

MSC公司：

62H30型

分类和区分；聚类分析（统计方面）

关键词：

群集;混合物模型;模型平均值;基于模型的聚类

软件：

混合物;集群生成;Matlab公司;Flury公司;遥远的;麦克卢斯特;百万像素;R（右）

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	安德森·E（1935）《加斯佩半岛的鸢尾花》。公牛Am Iris Soc 59:2-5
[2]	Andrews JL，McNicholas PD（2011）《多元t因子分析仪的扩展混合物》。统计计算21（3）：361-373·Zbl 1255.62175号
[3]	Andrews JL、McNicholas PD、Subedi S（2011），通过多元t分布混合物进行基于模型的分类。计算机统计数据分析55（1）：520-529·Zbl 1247.62151号
[4]	Banfield JD，Raftery AE（1993），基于模型的高斯和非高斯聚类。生物统计学49（3）：803-821·Zbl 0794.62034号
[5]	Basford KE，McLachlan GJ（1985），聚类分析背景下的分配率估计。美国统计协会杂志80（390）：286-293
[6]	Baudry J-P，Raftery AE，Celeux G，Lo K，Gottardo R（2010）《组合混合成分进行聚类》，《计算图形统计杂志》19（2）：332-353
[7]	Bhattacharya S，McNicholas PD（2014）用于混合物模型选择的LASSO化BIC。高级数据分析分类8（1）：45-61·兹比尔1474.62212
[8]	Biernacki C，Celeux G，Govaert G（2000）使用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell 22（7）：719-725
[9]	Bouveyron C，Girard S，Schmid C（2007）高维数据聚类。计算统计数据分析52（1）：502-519·Zbl 1452.62433号
[10]	Browne RP，McNicholas PD（2013）《混合物：聚类和分类的混合物模型》。R包版本1.0·Zbl 1332.62215号
[11]	Browne RP，McNicholas PD（2014）《高维常见主成分的估算》。高级数据分析分类8（2）：217-226·Zbl 1474.62183号
[12]	Celeux G，Govaert G（1995）高斯简约聚类模型。图案识别28（5）：781-793
[13]	Dahl DB（2006）通过Dirichlet过程混合模型对表达数据进行基于模型的聚类。In：Do K-A，Müller P，Vannucci M（eds）基因表达和蛋白质组学的贝叶斯推断。剑桥大学出版社，纽约
[14]	Dasgupta A，Raftery AE（1998），通过基于模型的聚类检测杂波空间点过程的特征。美国统计学会杂志93:294-302·Zbl 0906.62105号
[15]	Dean N，Murphy TB，Downey G（2006）使用未标记数据更新分类规则，以应用于食品真实性研究。J R Stat Soc:序列C 55（1）：1-14·Zbl 1490.62155号
[16]	Dempster AP，Laird NM，Rubin DB（1977）通过EM算法从不完整数据中获得最大似然。J R Stat Soc:序列B 39（1）：1-38·Zbl 0364.62022号
[17]	Faraway J（2011）《Faraway:书籍的函数和数据集》，朱利安·法拉韦著。R包版本1.0.5
[18]	Fisher RA（1936）分类问题中多重测量的使用。安·尤根7:179-188
[19]	Flury B（1997）多元统计第一课程。纽约州施普林格·Zbl 0879.62052号 ·doi:10.1007/978-1-4757-2765-4
[20]	Flury B（2012）Flury：来自Flury的数据集，1997年。R包版本0.1-3
[21]	Forina M、Armanino C、Castino M、Ubigli M（1986）作为葡萄酒原产地判别方法的多元数据分析。葡萄25:189-201
[22]	Fraley C、Raftery AE、Murphy TB、Scrucca L（2012）mclust第4版R：基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系技术报告597，西雅图·Zbl 1520.62002号
[23]	Fraley C、Raftery AE、Scrucca L（2013）mclust：基于模型的聚类、分类和密度估计的正态混合建模。R包版本4.2·Zbl 1520.62002号
[24]	Franczak BC，Browne RP，McNicholas PD（2014）移位不对称拉普拉斯分布的混合。IEEE Trans-Pattern Ana Mach Intell 36（6）：1149-1157
[25]	Fred ALN，Jain AK（2005）使用证据积累结合多个聚类。IEEE Trans-Pattern Ana Mach Intell公司27:835-850
[26]	Hastie T，Tibshirani R（1996）高斯混合判别分析。J R Stat Soc:序列B 58:155-176·Zbl 0850.62476号
[27]	Hennig C（2010）合并高斯混合成分的方法。高级数据分析分类4:3-34·Zbl 1306.62141号
[28]	Hjort NL，Claeskens G（2003）《频繁模型平均估计量》。美国统计协会杂志98（464）：879-899·Zbl 1047.62003年
[29]	Hoeting JA、Madigan D、Raftery AE、Volinsky CT（1999）《贝叶斯模型平均：教程》。统计科学14（4）：382-401·Zbl 1059.62525号
[30]	Hoeting JA，Raftery AE，Madigan D（1999），线性回归中的贝叶斯同时变量和变换选择。科罗拉多州立大学统计系9905技术报告·Zbl 0900.62352号
[31]	Hubert L，Arabie P（1985）比较分区。J类2:193-218
[32]	Hunter DR，Lange K（2004）MM算法教程。美国统计局58:30-37
[33]	Kass RE，Raftery AE（1995），贝叶斯因子。美国统计协会杂志90:773-795·Zbl 0846.62028号
[34]	Keribin C（2000）混合模型阶数的一致估计。SankhyáIndian J Stat Ser A 62（1）：49-66·Zbl 1081.62516号
[35]	Krivitsky PN、Handcock MS、Raftery AE、Hoff PD（2009）《利用潜在集群随机效应模型表示社交网络中的度分布、集群和同质性》。Soc网络31（3）：204-213
[36]	Leroux BG（1992）混合分布的一致估计。安统计1992:1350-1360·Zbl 0763.62015号
[37]	Madigan D，Raftery AE（1994）使用Occam窗口的图形模型中模型选择和模型不确定性的说明。美国统计学会杂志89:1535-1546·Zbl 0814.62030号
[38]	Mangasarian OL，Street WN，Wolberg WH（1995），通过线性规划进行乳腺癌诊断和预后。运营研究43:570-577·兹比尔0857.90073
[39]	MATLAB（2011）。版本7.12.0.635（R2011a）。马萨诸塞州纳蒂克：The MathWorks Inc。
[40]	McNicholas PD（2010）使用潜在高斯混合模型的基于模型的分类。《统计计划推断》140（5）：1175-1181·Zbl 1181.62095号
[41]	McNicholas PD，Browne RP（2013）《如何为混合型变量找到合适的聚类并应用于社会经济分层的讨论》。J R Stat Soc:序列C 62（3）：352-353
[42]	McNicholas PD、Jampani KR、McDaid AF、Murphy TB、Banks L（2014）pgmm:简约高斯混合模型。R包版本1.1
[43]	McNicholas PD，Murphy TB（2008）简约高斯混合模型。统计计算18（3）：285-296
[44]	McNicholas PD，Murphy TB（2010）通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类。生物信息学26（21）：2705-2712·doi:10.1093/bioinformatics/btq498
[45]	Milligan GW，Cooper MC（1986）关于层次聚类分析外部标准可比性的研究。Multivar Behav Res 21（4）：441-458
[46]	Molitor J、Papathomas M、Jerrett M、Richardson S（2010）贝叶斯曲线回归及其在全国儿童健康调查中的应用。生物统计学11（3）：484-498·Zbl 1437.62560号 ·doi:10.1093/biostatistics/kxq013
[47]	Murray PM、Browne RB、McNicholas PD（2014）《偏态因子分析仪的混合物》。计算统计数据分析77:326-335·兹比尔1506.62132
[48]	邱伟，乔H（2006）具有特定分离度的随机簇的生成。J类23:315-334·Zbl 1336.62189号
[49]	邱伟，乔H（2012）ClusterGeneration：随机聚类生成（具有指定的分离度）。R包版本1.2.9
[50]	R核心团队（2013）R：统计计算的语言和环境。奥地利维也纳R统计计算基金会
[51]	Raftery AE（1996）《近似贝叶斯因子和广义线性模型中模型不确定性的解释》。生物特征83（2）：251-266·Zbl 0864.62049号 ·doi:10.1093/biomet/83.2.251
[52]	Raftery AE，Madigan D，Hoeting JA（1998），线性回归模型的贝叶斯模型平均。美国统计学会杂志92:179-191·Zbl 0888.62026号
[53]	Raftery，AE；Madigan，D。；沃林斯基，康涅狄格州；Bernardo，JM（编辑）；JO Berger（编辑）；Dawid，美联社（编辑）；Smith，AFM（ed.），《生存分析中模型不确定性的考虑提高了预测性能》（讨论），第5期，323-349（1995），牛津
[54]	Rand WM（1971）聚类方法评价的客观标准。美国统计协会杂志66:846-850
[55]	Schwarz G（1978）估算模型的维数。安统计6:461-464·Zbl 0379.62005年
[56]	Steinley D（2004）Hubert-Arabie调整后的兰德指数的性质。心理方法9:386-396
[57]	Stephens M（2000）《混合模型中标签切换的研究》。《统计学会期刊》：B系列62:795-809·兹比尔0957.62020
[58]	Strehl A，Ghosh J，Cardie C（2002）集群集合——用于组合多个分区的知识重用框架。J Mach学习研究3:583-617·Zbl 1084.68759号
[59]	Volinsky CT、Madigan D、Raftery AE、Kronmal RA（1997）比例风险模型中的贝叶斯模型平均：评估中风风险。J R Stat Soc:序列C 46（4）：433-448·Zbl 0903.62093号
[60]	Vrbik I，McNicholas PD（2014）基于模型的聚类和分类的简约斜交混合模型。计算统计数据分析71:196-210·Zbl 1471.62202号
[61]	Wehrens R、Buydens LM、Fraley C、Raftery AE（2004）通过采样实现基于模型的图像分割和大型数据集聚类。J分类21:231-253·Zbl 1083.62051号
[62]	Wolfe JH（1963）《社会领域的对象聚类分析》。加州大学伯克利分校硕士论文
[63]	Yeung KY、Fraley C、Murua A、Raftery AE、Ruzzo WL（2001）基因表达数据的基于模型的聚类和数据转换。生物信息学17（10）：977-987

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

用于聚类的混合模型平均。（英语） Zbl 1414.62283号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

用于聚类的混合模型平均。 （英语） Zbl 1414.62283号

MSC公司：

关键词：

软件：

参考文献：

用于聚类的混合模型平均。（英语） Zbl 1414.62283号