×

从层次结构中半监督和非监督最优提取聚类的框架。 (英语) Zbl 1281.68175号

摘要:我们介绍了一个通过簇层次结构从局部切割中优化提取扁平簇的框架。将从聚类树中提取扁平聚类表示为一个优化问题,并提出了一种线性复杂度算法,该算法可在半监督和非监督场景中为该问题提供全局最优解。本文介绍了一组实验,包括不同性质的聚类层次、各种实际数据集,以及与文献中的专门方法的比较。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmed EB,Nabli A,Garguri F(2012)Shacun:基于排名约束的半监督层次主动聚类。摘自:第十二届数据挖掘工业会议论文集。柏林施普林格,第194-208页
[2] Ankerst M、Breunig MM、Kriegel HP、Sander J(1999)《光学:确定聚类结构的排序点》。SIGMOD记录28:49–60·doi:10.1145/304181.304187
[3] Bade K,Nürnberger A(2006)个性化层次聚类。收录:IEEE/WIC/ACM网络智能国际会议(WI)
[4] Bade K,Nürnberger A(2008)在部分已知层次结构的约束下创建集群层次结构。In:SIAM数据挖掘国际会议(SDM),亚特兰大
[5] Bade K,Hermkes M,Nürnberger A(2007)面向用户的分层信息组织和检索。In:欧洲机器学习会议(ECML),科瓦利斯,第518-526页
[6] Basu S,Davidson I,Wagstaff K(eds)(2008)《约束聚类:算法应用和理论的进展》。博卡拉顿CRC出版社·Zbl 1142.68005号
[7] Benkhalifa M,Mouradi A,Bouyakhf H(2001)《在文本分类的半监督聚合层次聚类中,集成wordnet知识以补充训练数据》。国际情报系统杂志16:929–947·Zbl 1006.68047号 ·doi:10.1002/int.1042
[8] Blockeel H,De Raedt L,Ramon J(1998),聚类树的自上而下诱导。摘自:机器学习国际会议(ICML),第55–63页
[9] Böhm C,Plant C(2008)Hissclu:一种基于层次密度的半监督聚类方法。In:扩展数据库技术国际会议(EDBT)
[10] Boudaillier E,Hébrail G(1997)分层聚类的交互式解释。In:数据挖掘和知识发现原理,LNCS,第1263卷,Springer,Heidelberg,第288-298页
[11] Boudaillier E,Hébrail G(1998)层次聚类的交互解释。智能数据分析2:229–244·doi:10.1016/S1088-467X(98)00026-2
[12] Brecheisen S、Kriegel HP、Kröger P、Pfeifle M(2004)《通过集群层次结构进行可视化挖掘》。参加:SIAM国际数据挖掘会议(SDM)
[13] Davidson I,Ravi S(2005)《带约束的聚集层次聚类:理论和实证结果》。In:欧洲数据库知识发现原则与实践会议(PKDD)
[14] Davidson I,Ravi S(2009)《在凝聚层次聚类中使用实例级约束:理论和实证结果》。Data Min Knowl光盘18:257–282·doi:10.1007/s10618-008-0103-4
[15] Davidson I、Wagstaff KL、Basu S(2006)《衡量分区聚类算法的约束集效用》。参加:欧洲数据库知识原则与实践会议(PKDD)
[16] Ester M,Kriegel HP,Sander J,Xu X(1996)一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。参加:知识发现和数据挖掘(KDD)国际会议
[17] Everitt BS、Landau S、Leese M(2001)《聚类分析》,第4版。阿诺德,伦敦·Zbl 1205.62076号
[18] Ferraretti D,Gamberoni G,Lamma E(2009)使用索引驱动搜索策略的自动集群选择。意大利人工智能协会(AI*IA)国际会议
[19] Frank A,Asuncion A(2010)UCI机器学习库。http://archive.ics.uci.edu/ml . 2011年12月1日访问
[20] Geusebroek JM,Burghouts G,Smeulders A(2005)阿姆斯特丹目标图像库。国际计算机杂志第61:103–112页
[21] Gilpin S,Davidson I(2011)将SAT解算器纳入分层聚类算法:一种高效且灵活的方法。在:ACM SIGKDD知识发现和数据挖掘国际会议(KDD)
[22] Gupta G,Liu A,Ghosh J(2006)层次密度调整:大型生物数据集的聚类和可视化框架。In:IEEE ICDM生物信息学数据挖掘研讨会(DMB)
[23] Gupta G,Liu A,Ghosh J(2010)《自动分层密度调整:大型生物数据集的强大自动聚类和可视化框架》。IEEE/ACM Trans-Comput生物信息学7(2):223–237·doi:10.1109/TCBB.2008.32
[24] Hamasuna Y、Endo Y、Miyamoto S(2012)《使用基于成对约束的聚类容忍度的凝聚层次聚类》。高级计算智能情报杂志16(1):174–179
[25] Hartigan JA(1975)聚类算法。纽约威利·Zbl 0372.62040号
[26] Herbin M、Bonnet N、Vautrot P(2001)《集群和影响区数量的估算》。图案识别快报22(14):1557–1568·Zbl 0986.68933号 ·doi:10.1016/S0167-8655(01)00103-9
[27] Hinneburg A,Keim DA(1998)一种在有噪声的大型多媒体数据库中进行聚类的有效方法。参加:知识发现和数据挖掘(KDD)国际会议
[28] Horta D,Campello RJBB(2012)数据聚类中的自动方面识别。模式识别45:4370–4388·Zbl 1248.68405号 ·doi:10.1016/j.patcog.2012.05.011
[29] Hubert L,Arabie P(1985)比较分区。J类2(1):193–218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[30] Jain AK,Dubes RC(1988),聚类数据算法。普伦蒂斯大厅恩格尔伍德悬崖·Zbl 0665.62061号
[31] Kestler H,Kraus J,Palm G,Schwenker F(2006)关于半监督分层聚类中约束的影响。在:模式识别中的人工神经网络IAPR研讨会(ANNPR)
[32] Kettering JR(2006)《聚类分析的实践》。J类23:3–30·doi:10.1007/s00357-006-0002-6
[33] Kim HJ,Lee SG(2002)使用用户自适应距离度量的有效文档聚类方法。In:ACM应用计算(SAC)研讨会
[34] Klein D,Kamvar SD,Manning CD(2002)从实例级约束到空间级约束:充分利用数据聚类中的先验知识。in:机器学习国际会议(ICML)
[35] Kraus JM、Palm G、Kestler HA(2007)关于功能基因组学中半监督层次图聚类的稳健性。摘自:第五届图形挖掘与学习国际研讨会(MLG),第1-4页
[36] Kriegel HP、Kröger P、Sander J、Zimek A(2011)《基于密度的聚类》。Wiley Interdiscip Rev Data Min Knowl Discov 1(3):231–240·doi:10.1002/widm.30
[37] Larsen B,Aone C(1999)使用线性时间文档聚类进行快速有效的文本挖掘。In:知识发现和数据挖掘国际会议(KDD)
[38] Lelis L,Sander J(2009)《基于密度的半监督聚类》。摘自:国际数据挖掘会议(ICDM)
[39] Milligan GW,Cooper MC(1985)《确定数据集中簇数的程序检查》。《心理测量学》50(2):159–179·doi:10.1007/BF02294245
[40] Miyamoto S,Terami A(2010)具有成对约束的半监督凝聚层次聚类算法。In:IEEE模糊系统国际会议(FUZZ-IEEE),第1-6页
[41] Naldi M、Campello R、Hruschka E、Carvalho A(2011)进化k-means的效率问题。应用软计算11(2):1938–1952·doi:10.1016/j.asoc.2010.06.010
[42] Paulovich F,Nonato L,Minghim R,Levkowitz H(2008)最小二乘投影:一种快速高精度多维投影技术及其在文档映射中的应用。IEEE Trans-Vis计算图14(3):564–575·doi:10.1109/TVCG.2007.70443
[43] Sander J,Qin X,Lu Z,Niu N,Kovarsky A(2003)从层次聚类表示中自动提取聚类。In:亚太知识发现和数据挖掘会议(PAKDD)·Zbl 1032.68629号
[44] Skarmeta AG,Bensaid A,Tazi N(2000)《基于半监督凝聚层次聚类的文本分类数据挖掘》,《国际智能系统》15(7):633–646·兹伯利0969.68620 ·doi:10.1002/(SICI)1098-111X(200007)15:7<633::AID-INT4>3.0.CO;2-8
[45] Struyf J,Díeroski S(2007)《带实例级约束的聚类树》。In:欧洲机器学习会议(ECML),第359–370页
[46] Stuetzle W(2003)通过分析样本的最小生成树来估计密度的聚类树。J类20:25–47·Zbl 1055.62075号 ·doi:10.1007/s00357-003-0004-6
[47] Stuetzle W,Nugent R(2010)估算密度聚类树的广义单链接方法。J计算图统计19(2):397–418·doi:10.1198/jcgs.2009.07049
[48] 孙H,黄J,韩J,邓H,赵P,冯B(2010)gSkeletonClu:通过结构关联树划分或聚集的基于密度的网络聚类。参加:IEEE数据挖掘国际会议(ICDM)
[49] Tan PN、Steinbach M、Kumar V(2006)《数据挖掘导论》。波士顿Addison-Wesley
[50] Wagstaff KL(2002)具有实例级约束的智能集群。康奈尔大学计算机科学系博士论文
[51] Xiong T,Wang S,Mayers A,Monga E(2011)分类数据的半监督无参数分割层次聚类。摘自:太平洋亚洲知识发现和数据挖掘会议(PAKDD),第265-276页
[52] Yeung KY、Fraley C、Murua A、Raftery AE、Ruzzo WL(2001)基因表达数据的基于模型的聚类和数据转换。生物信息学17(10):977–987·doi:10.1093/bioinformatics/17.10.977
[53] Yeung KY,Medvedovic M,Bumgarner R(2003)用重复测量聚类基因表达数据。基因组生物学4(5):R34
[54] Zhao H,Qi Z(2010)具有排序约束的层次聚集聚类。参加:知识发现和数据挖掘国际会议(WKDD)
[55] Zhao Y,Karypis G(2005)文档数据集的层次聚类算法。数据最小知识发现10:141–168·doi:10.1007/s10618-005-0361-3
[56] Zheng L,Li T(2011)半监督层次聚类。In:IEEE数据挖掘国际会议(ICDM)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。