×

一种高效、有效的通用聚集层次聚类方法。 (英语) Zbl 1467.62110号

摘要:我们介绍了一种通用、高效、有效的聚集层次聚类(AHC)框架。我们的方法嵌入了Lance-Williams(LW)聚类的一个子家族,并依赖于内积而非平方欧氏距离。我们对稀疏化归一化内积矩阵进行了一个有约束的自下而上合并过程。我们的方法命名为SNK-AHC,用于基于稀疏化归一核矩阵的AHC。SNK-AHC比经典的基于差异矩阵的AHC更具可扩展性。当簇具有任意形状时,它也可以产生更好的结果。人工和真实世界的基准被用来例证这些观点。从理论角度来看,SNK-AHC提供了对经典技术的另一种解释,它依赖于加权惩罚相似性的概念。组平均数、Mcquity、质心、中位数和Ward之间的差异可以通过其不同的平均策略来解释,这些平均策略用于聚集集群的同族间和同族内。其他分析了SNK-AHC的特点。我们提供了获得单调树状图的充分条件,详细阐述了质心和中值的存储数据矩阵方法,强调了群平均值、Mcquity和Ward的对角平移不变性,并证明了SNK-AHC在多大程度上可以确定簇数。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G08号 非参数回归和分位数回归
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] Margareta Ackerman和Shai Ben-David。基于链接的层次聚类特征。机器学习研究杂志,17:1-172016·Zbl 1437.62223号
[2] 朱利安·安·平(Julien Ah-Pine)。归一化核作为相似性指数。《知识发现和数据挖掘的进展》,第14届亚太会议,2010年6月21日至24日,印度海得拉巴,PAKDD 2010。诉讼程序。第二部分,第362-373页,2010年。
[3] 朱利安·阿品和王新余。基于相似度的层次聚类与文本集合应用程序。在智能数据分析国际研讨会上,第320-331页。斯普林格,2016年。
[4] Michael R Anderberg。应用程序的聚类分析。学术出版社,纽约,1973年·Zbl 0299.62029号
[5] Sivaraman Balakrishnan、Srivatsan Narayanan、Alessandro Rinaldo、Aarti Singh和Larry Wasserman。将树聚集在歧管上。《神经信息处理系统进展》,第2679–2687页,2013年。
[6] 玛丽亚·福丽娜·巴尔坎(Maria Florina Balcan)、梁英玉(Yingyu Liang)和普拉莫德·古普塔(Pramod Gupta)。鲁棒分层聚类。《机器学习研究杂志》,15(1):3831–38711914·Zbl 1312.68163号
[7] Jean-Paul Benz’ecri.Construction d'une classification accordante hi’erarchique par la recherche en chaˆne des voisins r’eciproques.简·鲍尔·本茨《建筑分类》。《donn´ees分析指南》,第7(2)期:209–2191982年·Zbl 0492.62049号
[8] M.Bruynooghe先生。分类surgante hi´erarchique des grands ensemples de don´ees:un algorithme rapide fond´e sur la construction des voisinages r´educibles。Cahiers de l’analyse des don’ees,3(1):7–331978年。统一资源定位地址http://eudml.org/doc/87905。40
[9] 张志忠和林志仁。Libsvm:支持向量机库。ACM智能系统和技术交易(TIST),2(3):272011。
[10] 卡马利卡·乔杜里(Kamalika Chaudhuri)和桑乔伊·达斯古普塔(Sanjoy Dasgupta)。群集树的收敛速度。《神经信息处理系统进展》,第343–351页,2010年。
[11] 陈振民(Zhenmin Chen)和约翰·范·内斯(John W.Van Ness)。空间压缩、空间离散和正容许聚类算法。模式识别,27(6):853–8571994·Zbl 0812.62066号
[12] 陈振民(Zhenmin Chen)和约翰·范·内斯(John W Van Ness)。空间保护聚合算法。分类杂志,13(1):157–1681996·Zbl 0880.62065号
[13] Thomas H.Cormen、Charles E.Leiserson、Ronald L.Rivest和Clifford Stein。算法导论,第三版。麻省理工学院出版社,2009年第3版。ISBN 0262033844、9780262033848·Zbl 1187.68679号
[14] 威廉·赫·戴(William HE Day)和赫伯特·埃德尔斯布伦纳(Herbert Edelsbrunner)。凝聚层次聚类方法的有效算法。分类杂志,1(1):7–241984年·Zbl 0563.62034号
[15] C.德拉姆。高层次分类法(hi’erarchique abcentente selon La m’ethode des voisins r’eciproques)。Les cahiers de l’analyse des don’ees,5(2):135–1441980年。
[16] 丹尼尔·戴夫斯(Daniel Defays)。完整链接方法的有效算法。计算机杂志,20(4):364–3661977·Zbl 0364.68038号
[17] Endo Yasunori、Haruyama Hideyuki和大久保隆吉。关于一些使用核函数的层次聚类算法。IEEE模糊系统国际会议,FUZZ-IEEE 2004,匈牙利布达佩斯,2004年7月25-29日,第1513-1518页,2004。
[18] Brian S.Everitt、Sabine Landau和Morven Leese。聚类分析。威利出版社,第4版,2009年。是0340761199、9780340761199·Zbl 1205.62076号
[19] 劳埃德·费舍尔(Lloyd Fisher)和约翰·范·内斯(John W.Van Ness)。允许的聚类过程。《生物统计学》,58(1):91-1041971年·Zbl 0224.62030号
[20] Pasi Franti等人,聚类数据集,2015年。统一资源定位地址http://cs.uef.fi/sipu/datasets/。
[21] 帕西·弗兰蒂(Pasi Franti)、奥利·维马约基(Olli Virmajoki)和维尔·豪塔马基(Ville Hautamaki)。使用k-最近邻图进行快速凝聚聚类。IEEE传输。模式分析。机器。智力。,28(11):1875–18812006年11月。ISSN 0162-8828。统一资源定位地址http://dx.doi.org/10.1109/TPAMI.2006.227。 ·Zbl 1161.68764号
[22] 阿里斯蒂德斯·吉奥尼斯(Aristides Gionis)、海基·曼尼拉(Heikki Mannila)和帕纳伊奥蒂斯·萨帕拉索(Panayiotis Tsaparas)。集群聚合。ACM数据知识发现事务(TKDD),1(1):42007年4月。
[23] 艾伦·D·戈登。等级分类综述。英国皇家统计学会杂志。A系列(概述),第119-137页,1987年·Zbl 0616.62086号
[24] K.Chidananda Gowda和G.Krishna。使用相互最近邻概念的聚集聚类。模式识别,10(2):105–1121978。41个·Zbl 0379.62051号
[25] John C.Gower和Gavin J.S.Ross。最小生成树和单连锁聚类分析。应用统计学,第54-64页,1969年。
[26] Sudipto Guha、Rajeev Rastogi和Kyuseok Shim。Cure:一种用于大型数据库的高效聚类算法。在ACM Sigmod Record第27卷第73-84页。ACM,1998年·Zbl 1006.68661号
[27] 罗杰·霍恩和查尔斯·约翰逊,编辑。矩阵分析。剑桥大学出版社,美国纽约州纽约市,1986年。国际标准图书编号0-521-30586-1·Zbl 0704.15002号
[28] 劳伦斯·休伯特和菲普斯·阿拉比。比较分区。分类期刊,2(1):193–2181985。ISSN 1432-1343。doi:10.1007/BF01908075。统一资源定位地址网址:http://dx.doi。org/10.1007/BF01908075·Zbl 0587.62128号
[29] 雷蒙德·奥斯汀·贾维斯和爱德华·帕特里克。使用基于共享近邻的相似性度量进行聚类。IEEE计算机汇刊,100(11):1025–10341973。
[30] J.胡安。程序去分类高级par l’algorithme de la recherche en chaˆne des voins r´eciproques。Les cahiers de l’analyse des don’ees,7(2):219–2251982年·Zbl 0505.62042号
[31] George Karypis、Eui-Hong Han和Vipin Kumar。变色龙:使用动态建模的层次聚类。计算机,32(8):68-751999。
[32] 戈弗雷·兰斯(Godfrey N.Lance)和威廉斯·威廉姆斯(Williams T.Williams)。分类排序策略的一般理论:1。分层系统。《计算机杂志》,9(4):373–3801967年。
[33] John A Lee和Michel Verleysen。非线性降维。Springer科学与商业媒体,2007年·Zbl 1128.68024号
[34] 莫西·利奇曼(Moshe Lichman)。UCI机器学习库,2013年。统一资源定位地址http://archive.ics.uci。教育/毫升。
[35] 格伦·米利根。超度量层次聚类算法。《心理测量学》,44(3):343–3461979年·Zbl 0422.62057号
[36] 鲍里斯·米尔金(Boris Mirkin),《数学分类和聚类》,Kluwer学术出版社,伦敦,1996年·Zbl 0874.90198号
[37] 丹尼尔·穆勒纳(Daniel M¨ullner)。现代分层聚集聚类算法。CoRR,abs/1109.23782011年。统一资源定位地址http://arxiv.org/abs/1109.2378。
[38] Daniel M¨ullner等人。fastcluster:r和python的快速分层聚合集群例程。《统计软件杂志》,53(9):2013年1月18日。
[39] 菲昂·穆塔格(Fionn Murtagh)。层次聚类算法的复杂性:最新进展。《计算统计季刊》,1(2):101-1131984年·Zbl 0614.62076号
[40] Fionn Murtagh和Pedro Contreras。层次聚类算法:概述。威利Interdisc。回放:数据挖掘和知识发现,2(1):86–972012·Zbl 1231.68214号
[41] Andrew Y Ng,Michael I Jordan,Yair Weiss等。关于光谱聚类:分析和算法。NIPS,第14卷,第849-856页,2001年。42
[42] Thuy-Diem Nguyen、Bertil Schmidt和Chee-Keong Kwoh。SparseHC:一种节省内存的在线分层聚类算法。《Procedia Computer Science》,2014年8月29日至19日。
[43] 秦杰(Jie Qin)、达林·P·刘易斯(Darrin P Lewis)和威廉·斯塔福德·诺布尔(William Stafford Noble)。微阵列表达数据的核层次基因聚类。生物信息学,19(16):2097–21042003。
[44] Bernhard Scholkopf和Alexander J Smola。使用内核学习:支持向量机、正则化、优化及其他。麻省理工学院出版社,2001年·Zbl 1019.68094号
[45] 史建波(Jianbo Shi)和马利克(Jitendra Malik)。标准化切割和图像分割。IEEE模式分析和机器智能汇刊,22(8):888–9052000。
[46] 罗宾·西布森。SLINK:单链节簇方法的最有效算法。计算。J.,16(1):30-341973年。doi:10.1093/comjnl/16.30。统一资源定位地址http://dx.doi.org/10.1093/comjnl/16.30。
[47] 彼得·范·米亨(Piet Van Mieghem)。绘制复杂网络的谱。剑桥大学出版社,2010年·Zbl 1256.05143号
[48] Ulrike Von Luxburg.光谱聚类教程.统计与计算,17(4):395–4162007。
[49] 查尔斯·扎恩。检测和描述格式塔簇的图论方法。IEEE计算机汇刊,100(1):68-861971·Zbl 0264.68040号
[50] Tian Zhang、Raghu Ramakrishnan和Miron Livny。Birch:一种用于超大数据库的高效数据聚类方法。ACM Sigmod Record,第25卷,第103–114页。ACM,1996年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。