×

具有正负约束的半监督基于模型的聚类。 (英语) Zbl 1414.62255号

摘要:聚类分析是统计学和计算机科学中的一种流行技术,其目的是将相似的观察结果分组到相对不同的组中,这些组通常称为聚类。半监督聚类假设关于组成员身份的一些附加信息是可用的。在最常考虑的情况下,某些数据的标签是已知的,而其他观测的标签则不可用。本文讨论了由正约束和负约束定义的一般类型的半监督聚类。在正约束条件下,一些数据点需要属于同一集群。相反,负约束规定特定点必须代表不同的数据组。我们概述了一个带有约束的半监督聚类的一般框架,该框架将附加信息自然地并入传统上用于混合建模和基于模型聚类的EM算法中。所开发的方法在合成和分类数据集上进行了说明。考虑并深入讨论了树状年代学的应用。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德森E(1935)《加斯佩半岛的虹膜》。公牛Am Iris Soc 59:2-5
[2] Basu S,Banerjee A,Mooney R(2002)《播种半监督聚类》。摘自:第19届机器学习国际会议记录,第19-26页
[3] Basu S,Bilenko M,Mooney RJ(2004)《半监督聚类的概率框架》,摘自:第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第59-68页
[4] Basu S,Davidson I,Wagstaff K(2008)《约束聚类:算法、理论和应用的进展》。查普曼和霍尔/CRC·Zbl 1142.68005号
[5] Bouveyron C,Brunet C(2014)《基于模型的高维数据聚类:综述》。计算机统计数据分析71:52-78·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[6] Bridge M(2012)《确定木材资源的来源:树木保护研究综述》。考古科学杂志39:2828-2834·doi:10.1016/j.jas.2012.04.028
[7] Campbell NA,Mahon RJ(1974),纤毛蟹属两种岩蟹变异的多元研究。奥斯特J Zool 22:417-425·doi:10.1071/ZO9740417
[8] Chen W-C,Maitra R(2011)通过APECM-An AECM Algorithm Sung以更快的速度对回归时间序列数据进行基于模型的聚类。统计分析数据最小值4:567-578·兹标07260303 ·doi:10.1002/sam.10143
[9] Cóme E,Oukhellou L,Denœux T,Aknin P(2009)使用混合模型和信念函数从部分监督数据中学习。图案识别42:334-348·Zbl 1181.68231号 ·doi:10.1016/j.patcog.2008.07.014
[10] Dempster AP、Laird NM、Rubin DB(1977)通过EM算法获得不完整数据的最大可能性(含讨论)。皇家统计学会J,Ser B 39:1-38·Zbl 0364.62022号
[11] Digalakis VV,Rtischev D,Neumeyer LG(1995)使用高斯混合的约束估计进行说话人自适应。IEEE转换语音音频过程3:357-366·doi:10.1109/89.466659
[12] Fisher RA(1936)分类问题中多重测量的使用。安·尤根7:179-188·文件编号:10.1111/j.1469-1809.1936.tb02137.x
[13] Forgy E(1965)《多元数据的聚类分析:分类的效率与可解释性》。生物统计学21:768-780
[14] Fraley C,Raftery AE(1998),多少簇?哪种聚类方法?通过基于模型的聚类分析回答。计算J 41:578-588·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578
[15] Fraley C,Raftery AE(2002),基于模型的聚类和密度估计。美国统计学会杂志97:611-631·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[16] Fraley C,Raftery AE(2006)MCLUST第3版R:正态混合建模和基于模型的聚类,华盛顿大学统计系技术代表504
[17] 加夫尼,SJ;Smyth,P.,混合回归模型的轨迹聚类,63-72(1999),美国·doi:10.1145/312129312198
[18] Grissino-Mayeri HD,Fritts H(1997)国际树木年轮数据库:为全球科学共同体服务的增强型全球数据库。全新世7:235-238·doi:10.1177/095968369700700212
[19] Haneca K、Wazny T、Van Acker J、Beeckman H(2005)《从艺术品中证明波罗的海木材:成功与局限》。考古科学杂志32:261-271·doi:10.1016/j.jas.2004.09.005
[20] Hennig C(2010)合并高斯混合成分的方法。高级数据分析类4:3-34·Zbl 1306.62141号 ·doi:10.1007/s11634-010-0058-3
[21] Huang J-T,Hasegawa Johnson M(2009)关于语音分类的高斯混合模型的半监督学习。在:NAACL HLT关于半监督学习的研讨会
[22] Hughes MK、Swetnam TW、Diaz HF(2009)《树木气候学:进展与展望》,第11卷。普林斯顿大学,古环境研究进展
[23] Johnson S(1967)层次聚类方案。《心理测量学》32(3):241-254·Zbl 1367.62191号 ·doi:10.1007/BF02289588
[24] Law MHC,Topchy A,Jain AK(2005),基于模型的概率约束聚类。2005年SIAM国际数据挖掘会议,第641-645页
[25] Liu B,Shen X,Pan W(2013)半监督谱聚类及其在检测人口分层中的应用。前Genet 4:1-5
[26] Lu Z,Leen TK(2007)惩罚概率聚类。神经计算19:1528-1567·Zbl 1119.68183号 ·doi:10.1162/neco.2007.19.6.1528
[27] MacQueen J(1967)多元观测分类和分析的一些方法。《伯克利第五交响曲汇编》1:281-297·Zbl 0214.46201号
[28] Maitra R,Melnykov V(2010)模拟数据以研究有限混合建模和聚类算法的性能。J计算图表统计19:354-376·doi:10.1198/jcgs.2009.08054
[29] Martinez-Uso A,Pla F,Sotoca J(2010)用于图像分割的半监督高斯混合模型。In:模式识别国际会议,第2941-2944页
[30] McLachlan G,Peel D(2000)有限混合模型。纽约威利·Zbl 0963.62061号 ·doi:10.1002/0471721182
[31] Melnykov V(2012)高斯回归时间序列基于模型聚类的有效估计。统计分析数据最小值5:95-99·兹比尔07260316 ·doi:10.1002/sam.1138
[32] Melnykov V(2013)《有限混合模型的后验概率分布及其在聚类中的应用》,《多变量分析杂志》122:175-189·Zbl 1279.62114号 ·doi:10.1016/j.jmva.2013.07.014
[33] Melnykov V,Chen W-C,Maitra R(2012)MixSim:R包,用于模拟具有预先指定的聚类复杂性的数据集。J Stat Softw杂志51:1-25·doi:10.18637/jss.v051.i12
[34] Melnykov V,Maitra R(2010)有限混合模型和基于模型的聚类。统计综述4:80-116·Zbl 1190.62121号 ·doi:10.1214/09-SS053
[35] Nigam K、McCallum AK、Thrun S、Mitchell T(2000)《使用EM对标记和未标记文档进行文本分类》。《机器学习》39:103-134·Zbl 0949.68162号 ·doi:10.1023/A:1007692713085
[36] Pan W,Shen X,Jiang A,Hebbel R(2006)通过惩罚混合模型进行半监督学习,并应用于微阵列样本分类。生物信息学22(19):2388-2395·doi:10.1093/bioinformatics/btl393
[37] Schwarz G(1978)估算模型的维数。安统计6:461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[38] Shental N,Bar-Hillel A,Hertz T,Weinshall D(2003)使用等价约束计算含EM的高斯混合模型。In:NIPS进展,第15卷·Zbl 1161.68775号
[39] Sloane NJA(2014)整数序列在线百科全书:A001349 n节点连通图的数量
[40] Wagstaff K,Cardie C,Rogers S,Schroedl S(2001)Constrained \[KK\]-表示具有背景知识的聚类。摘自:第十八届机器学习国际会议记录,第577-584页
[41] Wang,L。;朱,J。;Zou,H.,用于微阵列分类的混合Huberized支持向量机,983-990(2007),美国
[42] Ward JH(1963)优化目标函数的分层分组。美国统计协会杂志58:236-244·doi:10.1080/01621459.1963.10500845
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。