×

测量不一致下的高斯混合建模和基于模型的聚类。 (英语) Zbl 1459.62120号

摘要:有限混合为建模复杂的异构数据提供了一个强大的工具。其最重要的应用之一是基于模型的聚类。它假设每个数据组可以由一个混合模型组件合理地描述。这在混合组分和簇之间建立了一对一的关系。然而,在某些情况下,由于存在以不同方式记录的同一类观察结果,这种关系可能会被打破。由于使用不同的刻度、操作员错误或简单地使用不同的记录样式而导致记录不一致,可能会出现这种影响。本文提出的想法旨在通过对混合模型进行修改来缓解这一问题。虽然所提出的方法适用于一类广泛的混合模型,但本文对高斯混合模型进行了说明。本文考虑了一些模拟研究和对真实数据集的应用,得出了有希望的结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alimoglu F,Alpaydin E(1996)基于不同表示的多分类器组合方法,用于手写体识别。在:第五届土耳其人工智能和人工神经网络研讨会论文集(TAINN 96)
[2] JD Banfield;Raftery,AE,基于模型的高斯和非高斯聚类,生物统计学,49,803-821(1993)·Zbl 0794.62034号 ·doi:10.2307/2532201
[3] Baudry,J-P;Raftery,A。;Celeux,G。;Lo,K。;Gottardo,R.,组合用于聚类的混合成分,J Comput Graph Stat,19332-353(2010)·doi:10.1198/jcgs.2010.08111
[4] Bunke,H。;Sanfeliu,A.,《句法和结构模式识别:理论和应用》(1990年),新加坡:世界科学出版社,新加坡·Zbl 0744.68017号
[5] Celeux,G。;Govaert,G.,聚类的分类EM算法和两个随机版本,Comput Stat Data Anal,14315-332(1992)·兹比尔0937.62605 ·doi:10.1016/0167-9473(92)90042-E
[6] Celeux,G。;Govaert,高斯简约聚类模型,计算统计数据分析,28781-93(1995)
[7] Dasgupta S(1999)学习高斯混合。摘自:IEEE计算机科学基础研讨会论文集,纽约,第633-644页
[8] 美联社登普斯特;新墨西哥州莱尔德;Rubin,DB,通过EM算法获得不完整数据的最大可能性(含讨论),J R Stat Soc Ser B,39,1-38(1977)·Zbl 0364.62022号
[9] Di Zio,M。;瓜内拉,美国。;Rocci,R.,《分类问题的混合模型:单位度量误差》,《计算统计数据分析》,51,5,2573-2585(2007)·Zbl 1161.62373号 ·doi:10.1016/j.csda.2006.01.01
[10] Eden M(1961)《笔迹的形式化》。In:语言结构及其数学方面
[11] Fisher,P.,《空间数据中的不确定性模型》,Geogr Inf Syst,1191-205(1999)
[12] Fop M、Murphy TB、Hanlon L(2017年),基于模型的测量误差数据聚类。致:CLADAG,2017
[13] IC Gormley;Murphy,TB,社交网络数据的专家混合潜在位置聚类模型,Stat Methodol,7385-405(2010)·Zbl 1233.62205号 ·doi:10.1016/j.stamet.2010.01.002
[14] 戈文丹,V。;Shivaprasad,A.,《字符识别——综述》,《模式识别》,23,671-683(1990)·doi:10.1016/0031-3203(90)90091-X
[15] Han,J。;M.Kamber。;Pei,J.,《数据挖掘:概念和技术》(2012),阿姆斯特丹:爱思唯尔出版社·Zbl 1230.68018号
[16] Hennig,C.,合并高斯混合成分的方法,高级数据分析分类,4,3-34(2010)·Zbl 1306.62141号 ·doi:10.1007/s11634-010-0058-3
[17] 休伯特,L。;Arabie,P.,比较分区,J Classif,2193-218(1985)·doi:10.1007/BF01908075
[18] 池田,K。;山村,T。;Mitamura,Y。;藤原,S。;Y.Tominaga。;Kiyono,T.,利用位置和笔画向量序列对手写字符进行在线识别,模式识别,13191-206(1981)·doi:10.1016/0031-3203(81)90096-0
[19] 只是,BH;马克·D。;Munns,M。;Sandefer,R.,《为什么患者匹配是一个挑战:关键识别领域的主患者指数(MPI)数据差异研究》,Perspect Health Inf Manag,13,1e(2016)
[20] 考夫曼,L。;Rousseuw,PJ,《在数据中发现群体》(1990),纽约:威利,纽约·兹比尔1345.62009
[21] 库马尔,M。;Patel,N.,《带测量误差的聚类数据》,Comput Stat data Anal,51,12,6084-6101(2007)·Zbl 1445.62151号 ·doi:10.1016/j.csda.2006.12.012
[22] MacQueen J(1967)多变量观测的一些分类和分析方法。摘自:第五届伯克利研讨会论文集。第1卷,第281-297页·Zbl 0214.46201号
[23] 麦克拉克伦,G。;Peel,D.,有限混合模型(2000),纽约:威利,纽约·Zbl 0963.62061号
[24] Melnykov,V.,《质谱分析中的有限混合建模》,J R Stat Soc Ser C,62573-592(2013)·doi:10.1111/rssc.12010
[25] Melnykov,V.,《通过两两重叠合并混合成分进行聚类》,《计算图统计杂志》,25,66-90(2016)·doi:10.1080/10618600.2014.978007
[26] 梅利尼科夫,V。;陈,W-C;Maitra,R.,MixSim:R包,用于模拟具有预先指定的聚类复杂性的数据集,J Stat Softw,51,1-25(2012)·doi:10.18637/jss.v051.i12
[27] 潘科夫,JI,《半导体中的光学过程》(2012),切尔姆斯福德:Courier Corporation,切尔姆斯福德
[28] Pearson,K.,《进化数学理论的贡献》,Philos Trans R Soc,185,71-110(1894)·JFM 25.0347.02号
[29] 拉姆,E。;Do,HH,《数据清理:问题和当前方法》,IEEE Data Eng Bull,23,4,3-13(2000)
[30] Schlattmann,P.,有限混合模型的医学应用(2009),柏林:施普林格出版社,柏林·Zbl 1158.62082号
[31] Schwarz,G.,估算模型的尺寸,Ann Stat,6461-464(1978)·兹伯利0379.62005 ·doi:10.1214/aos/1176344136
[32] Sethi,IK;Chatterjee,B.,受限手印梵文的机器识别,模式识别,9,69-75(1977)·doi:10.1016/0031-3203(77)90017-6
[33] Sneath,P.,《计算机在分类学中的应用》,J Gen Microbiol,17,201-226(1957)·doi:10.1099/00221287-17-1-184
[34] 索卡尔·R。;Michener,C.,《评估系统关系的统计方法》,堪萨斯大学科学通报,381409-1438(1958)
[35] 托马斯·H。;Lohaus,A。;Brainerd,C.,空间任务中的生长和个体差异建模,Monogr Soc Res Child Devd,58,1-190(1993)·doi:10.1111/j.1540-5834.1993.tb00354.x
[36] Tjaden,B.,《利用错误信息聚类基因表达数据的方法》,BMC Bioninform,7,1,17(2006)·doi:10.1186/1471-2105-7-17
[37] Ullrich,B。;Antillón,A。;博米克,M。;Wang,J。;Xi,H.,量子点与分子交叉处的原子跃迁区,Phys Scr,89,2,025801(2014)·doi:10.1088/0031-8949/89/02/2025801
[38] Ward,JH,优化目标函数的分层分组,美国统计学会杂志,58236-244(1963)·doi:10.1080/01621459.1963.10500845
[39] Young,WC;Raftery,AE;Yeung,KY,基于模型的聚类和数据校正,用于去除基因表达数据中的伪影,Ann Appl Stat,11998(2016)·Zbl 1383.62299号 ·doi:10.1214/17-AOAS1051
[40] 朱,X。;Melnykov,V.,有限混合建模中的Manly变换,计算统计数据分析,121,190-208(2018)·Zbl 1469.62184号 ·doi:10.1016/j.csda.2016.01.015
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。