×

具有最佳传输的分层聚类。 (英语) Zbl 1456.62117号

总结:最佳运输距离(OT)产生了一种强大的技术来比较概率分布。定义集群之间的相似性度量一直是统计学中的一个公开问题。本文介绍了一种基于OT距离度量的层次聚类算法,并与现有的和流行的层次聚类方法相比,分析了该算法在标准数据集上的性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
第60页 统计学在工程和工业中的应用;控制图
90B06型 运输、物流和供应链管理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿德勒,J。;Lunz,S.,Banach wasserstein gan,(神经信息处理系统进展(2018)),6754-6763
[2] Alcalá-Fdez,J。;费尔南德斯,A。;Luengo,J。;Derrac,J.等人。;南卡罗来纳州加西亚。;桑切斯,L。;Herrera,F.,Keel数据挖掘软件工具:数据集存储库,算法集成和实验分析框架,J.Mult-值逻辑软计算。,17 (2011)
[3] Altschuler,J。;韦德,J。;Rigollet,P.,通过sinkhorn迭代实现最优运输的近线性时间近似算法,(神经信息处理系统进展(2017)),1964-1974
[4] Arjovsky,M.,Chintala,S.,Bottou,L.,2017年。Wasserstein生成性对抗网络。载于:国际机器学习会议,第214-223页。
[5] Bazan,E.,Dokládal,P.,Dokladalova,E.,2018年。图像分割的最佳传输。摘自:法国-德国博士研讨会,第12-15页。
[6] Blondel,M.,Seguy,V.,Rolet,A.,2018年。平滑且稀疏的最佳传输。摘自:国际人工智能和统计会议,第880-889页。
[7] Courty,N。;火焰,R。;Tuia博士。;Rakotomamonjy,A.,域适配的最佳传输,IEEE Trans。模式分析。机器。智力。,39, 9, 1853-1865 (2016)
[8] Cuturi,M.,《Sinkhorn距离:最优传输的光速计算》,(神经信息处理系统进展(2013)),2292-2300
[9] Defays,D.,一个完整链接方法的有效算法,Compute。J.,20,4,364-366(1977)·Zbl 0364.68038号
[10] 杜瓦,D。;Graff,C.,UCI机器学习库(2017)
[11] Estévez,P.A。;Tesmer,M。;佩雷斯,C.A。;Zurada,J.M.,标准化互信息特征选择,IEEE Trans。神经网络。,20, 2, 189-201 (2009)
[12] 费尔南德斯,A。;Gómez,S.,《使用多端程序解决凝聚层次聚类中的非唯一性》,J.Classification,25,1,43-65(2008)·Zbl 1260.62042号
[13] Florek,K。;Łukaszewicz,J。;佩尔卡尔,J。;斯坦豪斯,H。;Zubrzycki,S.,《联合点和集合点的划分》,(数学学术讨论会,第2卷(1951年),282-285·Zbl 0045.26103号
[14] Golub,T.R。;Slonim,D.K。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J.P。;科勒,H。;Loh,M.L。;唐宁,J.R。;Caligiuri,M.A.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,2865439531-537(1999)
[15] Jin,J。;王伟,高维聚类的影响特征PCA,Ann.Statist。,4432323-2359(2016)·Zbl 1359.62249号
[16] Kantorovich,L.,《关于物质易位》,CR dokl,Acad。科学。URSS,37,191-201(1942)·Zbl 0061.09705号
[17] Klatt,M。;Tameling,C。;Munk,A.,《经验正则化最优运输:统计理论与应用》,ArXiv预印本,(2018)
[18] 乐村,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,8622278-2324(1998年)
[19] Legendre,P。;Legendre,L.F.,《数值生态学》,第24卷(2012),爱思唯尔
[20] Leisch,F。;Dimitriadou,E。;Leisch,M.F。;No,Z.,包“mlbench”,CRAN(2009)
[21] McQuity,L.L.,离散和连续数据的互易对相似性分析,教育。精神病。测量。,26, 4, 825-831 (1966)
[22] Monge,G.,《法国历史》。阿尔卡特。R.科学。巴黎(1781)
[23] Müllner,D.,《现代层次凝聚聚类算法》(2011),ArXiv预印本,ArXiv:1109.2378
[24] Pomeroy,S.L。;Tamayo,P。;加森贝克,M。;斯图拉·L·M。;安吉洛,M。;McLaughlin,M.E。;Kim,J.Y。;Goumnerova,L.C。;布莱克,P.M。;Lau,C.,基于基因表达的中枢神经系统胚胎肿瘤结果预测,Nature,4156870436(2002)
[25] Rabin,J。;费拉丹,S。;Papadakis,N.,《采用放松优化传输的自适应颜色传输》(2014 IEEE图像处理国际会议,ICIP(2014),IEEE),4852-4856
[26] Sibson,R.,SLINK:单链簇方法的最有效算法,计算。J.,16,1,30-34(1973)
[27] Sokal,R.R.,《评估系统关系的统计方法》,堪萨斯大学,科学。公牛。,38, 1409-1438 (1958)
[28] 苏,A.I。;威尔士语,J.B。;萨皮诺索,L.M。;科恩,S.G。;迪米特洛夫,P。;搭接,H。;舒尔茨,P.G。;鲍威尔,S.M。;Moskaluk,C.A。;Frierson,H.F.,《利用基因表达特征对人类癌症进行分子分类》,《癌症研究》,61,20,7388-7393(2001)
[29] 维拉尼,C.,《最优运输主题》(2003年),美国数学学会·Zbl 1106.90001号
[30] Wang,J.,通过交叉验证一致选择簇数,Biometrika,97,4,893-904(2010)·Zbl 1204.62104号
[31] Ward Jr.,J.H.,优化目标函数的分层分组,J.Amer。美国统计协会,58,301,236-244(1963)
[32] Witten,D.M。;Tibshirani,R.,《聚类中的特征选择框架》,J.Amer。统计师。协会,105,490,713-726(2010)·Zbl 1392.62194号
[33] 杨,J。;Grunsky,E。;Cheng,Q.,一种基于Kullback-Leibler散度的新型层次聚类分析方法及其在达拉庙化探数据中的应用,计算。地质科学。,123, 10-19 (2019)
[34] 张伟。;王,X。;赵,D。;Tang,X.,图度关联:有向图上的聚集聚类,(欧洲计算机视觉会议(2012),Springer),428-441
[35] 张伟。;赵,D。;Wang,X.,通过最大增量路径积分进行聚集聚类,模式识别。,46, 11, 3056-3065 (2013) ·Zbl 1326.68240号
[36] 赵,D。;Tang,X.,通过图的zeta函数循环簇,(神经信息处理系统进展(2009)),1953-1960
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。