×

基于内部质量度量的无监督集成学习加权框架。 (英语) 兹比尔1493.68321

摘要:无监督集成或一致性聚类是指寻找个体聚类的最佳组合策略,该策略对算法聚类池的选择具有鲁棒性。最近,基于共识图的概念提出了一种方法,与前人相比,该方法具有深远的优势。尽管该方法具有稳健的特性,但它为每个集群对最终解决方案的贡献分配了相同的权重。本文针对这一问题提出了一种基于内部聚类质量度量的加权策略,并与其他常用方法进行了比较。在公开数据集上的结果表明,权重可以显著提高精度性能,同时保持鲁棒性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abawajy,J.H.、Kelarev,A.V.和Chowdhury,M.(2013)。心电图数据聚类和分类的多阶段方法。生物医学中的计算机方法和程序,112(3),720-730·doi:10.1016/j.cmpb.2013.08.002
[2] Abello,J.、Pardalos,P.M.和Resende,M.G.(2013)。海量数据集手册(第4卷)。柏林:斯普林格。
[3] Brodersen,K.H.、Ong,C.S.、Stephan,K.E.和Buhmann,J.M.(2010年)。平衡精度及其后验分布。2010年第20届模式识别国际会议(ICPR)(第3121-3124页)。电气与电子工程师协会。
[4] Caliánski,T.和Harabasz,J.(1974年)。用于聚类分析的枝晶方法。统计学中的传播——理论与方法,3(1),1-27·Zbl 0273.62010 ·doi:10.1080/03610927408827101
[5] Chang,H.和Yeung,D.-Y.(2008)。稳健的基于路径的光谱聚类。模式识别,41(1),191-203·兹比尔1122.68525 ·doi:10.1016/j.patcog.2007.04.010
[6] Davies,D.L.和Bouldin,D.W.(1979)。集群分离措施。IEEE模式分析和机器智能汇刊,224-227·doi:10.10109/TPAMI.1979.4766909
[7] Deodhar,M.和Ghosh,J.(2006)。用于检测微阵列数据中重叠簇的一致性聚类。ICDM研讨会(第104-108页)。
[8] Dunn,J.C.(1973)。ISODATA过程的模糊关系及其在检测紧密且分离良好的簇中的使用。控制论杂志,3,32-57·Zbl 0291.68033号
[9] Ester,M.、Kriegel,H.-P.、Sander,J.和Xu,X.(1996年)。一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。Kdd,96,226-231。
[10] Fodeh,S.J.、Brandt,C.、Luong,T.B.、Haddad,A.、Schultz,M.、Murphy,T.等人(2013年)。生物医学数据的互补集成聚类。生物医学信息学杂志,46(3),436-443·doi:10.1016/j.jbi.2013.02.001
[11] Fred,A.(2001年)。在数据分区中查找一致的集群。在多分类器系统中(第309-318页)。斯普林格·Zbl 0980.68682号
[12] Fred,A.L.和Jain,A.K.(2005)。使用证据积累结合多个聚类。IEEE模式分析和机器智能汇刊,27(6),835-850·doi:10.10109/TPAMI.2005.113
[13] Fu,L.和Medico,E.(2007)。Flame,一种用于DNA微阵列数据分析的新型模糊聚类方法。BMC生物信息学,8(1),3·doi:10.1186/1471-2105-8-3
[14] Gionis,A.、Mannila,H.和Tsaparas,P.(2007年)。集群聚合。ACM数据知识发现事务(TKDD),1(1),4·doi:10.1145/1217299.1217303
[15] Goder,A.和Filkov,V.(2008)。共识聚类算法:比较和改进。在Alenex(第8卷,第109-117页)。暹罗。
[16] Haghtalab,S.、Xanthopoulos,P.和Madani,K.(2015)。一个健壮的无监督一致性控制图模式识别框架。应用专家系统,42,6767-6776·doi:10.1016/j.eswa.2015.04.069
[17] Halkidi,M.和Vazirgiannis,M.(2001年)。聚类有效性评估:找到数据集的最佳分区。2001年IEEE数据挖掘国际会议论文集。ICDM 2001(第187-194页)。电气与电子工程师协会·Zbl 1009.68665号
[18] Halkidi,M.、Vazirgiannis,M.和Batistakis,Y.(2000年)。聚类过程中的质量方案评估。《第四届欧洲数据挖掘和知识发现原则会议论文集》,PKDD'00(第265-276页),英国伦敦:施普林格出版社。ISBN 3-540-41066-X.网址http://dl.acm.org/citation.cfm?id=645804.669820。2017年11月20日访问·Zbl 0998.68154号
[19] Jang,J.-S.R.、Sun,C.-T.和Mizutani,E.(1997年)。神经模糊和软计算:学习和机器智能的计算方法。新泽西州新泽西州:普伦蒂斯·霍尔。
[20] Johnson,S.C.(1967年)。层次聚类方案。《心理测量学》,32(3),241-254·Zbl 1367.62191号 ·doi:10.1007/BF02289588
[21] Kotsiantis,S.、Kanellopulos,D.、Pintelas,P.等人(2006年)。处理不平衡数据集:综述。GESTS国际计算机科学与工程汇刊,30(1),25-36。
[22] Kovács,F.、Legány,C.和Babos,A.(2005年)。聚类有效性测量技术。在第六届匈牙利研究人员计算智能国际研讨会上。
[23] Křivánek,M.和Morávek,J.(1986)。层次树聚类中的Np-hard问题。《信息学报》,23(3),311-323·Zbl 0644.68055号 ·doi:10.1007/BF00289116
[24] Kuncheva,L.I.、Hadjitodorov,S.T.和Todorova,L.P.(2006)。集群集成方法的实验比较。2006年第九届信息融合国际会议(第1-7页)。电气与电子工程师协会。
[25] Lancichinetti,A.和Fortunato,S.(2012年)。复杂网络中的一致性聚类。科学报告,2336·doi:10.1038/srep00336
[26] Lawlor,N.、Fabbri,A.、Guan,P.、George,J.和Karuturi,R.K.M.(2016)。multiclust:一个用于识别癌症转录组中生物相关簇的r包。癌症信息学,15103·doi:10.4137/CIN。8000英镑
[27] LeCun,Y.和Cortes,C.(2010年)。Mnist手写数字数据库。AT&T实验室【在线】。http://yann.lecun.com/exdb/mnist。2017年11月20日访问。
[28] Li,T.,&Ding,C.(2008)。2008年SIAM数据挖掘国际会议(第12页),2008年4月24日至26日,佐治亚州亚特兰大。
[29] Li,T.、Ogihara,M.和Zhu,S.(2006)。集成不同来源的功能以进行音乐信息检索。在2006年第六届数据挖掘国际会议上。ICDM’06(第372-381页)。电气与电子工程师协会,
[30] Lichman,M.(2013)。UCI机器学习库。统一资源定位地址http://archive.ics.uci.edu/ml。2017年11月20日访问。
[31] Liu,H.、Cheng,G.和Wu,J.(2015)。大数据上的共识聚类。第十二届服务系统和服务管理国际会议(ICSSSM),2015年(第1-6页)。电气与电子工程师协会。
[32] Liu,Y.、Li,Z.、Xiong,H.、Gao,X.和Wu,J.(2010)。了解内部集群验证措施。2010年IEEE第十届数据挖掘国际会议(ICDM)(第911-916页)。电气与电子工程师协会。
[33] MacQueen,J.等人(1967年)。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集,美国加利福尼亚州奥克兰(第1卷,第281-297页)·Zbl 0214.46201号
[34] Mangasarian,O.L.,Nick Street,W.和Wolberg,W.H.(1995)。通过线性规划进行乳腺癌诊断和预后。运筹学,43(4),570-577·Zbl 0857.90073号
[35] McLachlan,G.和Peel,D.(2000)。多元正态混合物。在有限混合模型中。新泽西州霍博肯:威利。https://doi.org/10.1002/0471721182.ch3。 ·Zbl 0963.62061号
[36] McQuitty,L.L.(1957)。用于隔离正交和倾斜类型以及类型相关性的基本链接分析。教育和心理测量,17207-229·doi:10.1177/001316445701700204
[37] Ng,A.Y.,Jordan,M.I.,Weiss,Y.等人(2002年)。关于谱聚类:分析和算法。神经信息处理系统进展,2849-856。
[38] Nguyen,N.和Caruana,R.(2007年)。共识聚类。在2007年第七届IEEE数据挖掘国际会议上。ICDM 2007(第607-612页)。电气与电子工程师协会
[39] Race,S.L.(2014)。迭代共识聚类。罗利:北卡罗来纳州立大学。
[40] Rajaraman,A.、Ullman,J.D.、Ull曼,J.D和Ullman J.D(2012年)。海量数据集的挖掘(第77卷)。剑桥:剑桥大学出版社。
[41] Rendón,E.、Abundez,I.、Arizmendi,A.和Quiroz,E.(2011年)。内部与外部群集验证索引。国际计算机与通信杂志,5(1),27-34。
[42] Rousseeuw,P.J.(1987)。轮廓:用于解释和验证聚类分析的图形辅助工具。计算与应用数学杂志,20,53-65·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[43] Sharma,S.(1996年)。应用多元技术。纽约州纽约市:Wiley。
[44] Shi,J.和Malik,J.(2000)。标准化剪切和图像分割。IEEE模式分析和机器智能汇刊,22(8),888-905·数字对象标识代码:10.1109/34.868688
[45] Sneath,P.H.(1957)。计算机在分类法中的应用。普通微生物学杂志,17(1),201-226·doi:10.1099/00221287-17-1-184
[46] Strehl,A.和Ghosh,J.(2003)。集群集成——用于组合多个分区的知识重用框架。机器学习研究杂志,3,583-617·Zbl 1084.68759号
[47] Sukegawa,N.、Yamamoto,Y.和Zhang,L.(2013)。集团划分问题的拉格朗日松弛和钉住检验。数据分析和分类进展,7(4),363-391·Zbl 1308.90155号 ·doi:10.1007/s11634-013-0135-5
[48] Topchy,A.、Jain,A.K.和Punch,W.(2005年)。集群集合:共识和弱分割模型。IEEE模式分析和机器智能汇刊,27(12),1866-1881·doi:10.1109/TPAMI.2005.237
[49] Vega-Pons,S.和Ruiz-Shulcloper,J.(2011年)。聚类集成算法综述。国际模式识别与人工智能杂志,25(03),337-372·doi:10.1142/S021801411008683
[50] Weiss,S.M.和Kulikowski,C.A.(1991)。学习的计算机系统:来自统计、神经网络、机器学习和专家系统的分类和预测方法。加利福尼亚州旧金山:Morgan Kaufmann Publishers,Inc。
[51] Weng,C.G.和Poon,J.(2008)。一种新的非平衡数据集评价方法。《第七届澳大利亚数据挖掘会议论文集》(第87卷,第27-32页)。澳大利亚计算机学会。
[52] Xanthopoulos,P.(2014)。共识聚类方法综述。T.M.Rassias、C.A.Floudas和S.Butenko(编辑),《科学与工程优化》(第553-566页)。纽约:斯普林格·Zbl 1322.62178号
[53] Yu,X.、Yu,G.和Wang,J.(2017)。通过投影聚类集成对癌症基因表达数据进行聚类。普洛斯一号,12(2),e0171429·doi:10.1371/journal.pone.0171429
[54] Zahn,C.T.(1971)。检测和描述格式塔簇的图论方法。IEEE计算机汇刊,100(1),68-86·Zbl 0264.68040号 ·doi:10.1109/T-C.1971.223083
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。