×

基于中心的聚类方法。 (英语) Zbl 1292.62097号

摘要:本文考虑有限数据点集的(l_1)-聚类问题,该数据点集应划分为(k)个不相交的非空子集。在这种情况下,目标函数不必是凸的或可微的,并且通常它可能有许多局部或全局极小值。因此,它成为一个复杂的全局优化问题。本文提出了一种搜索局部最优解的方法,证明了相应迭代过程的收敛性,并给出了相应的算法。在一些典型的情况下,如数据中存在离群值和不完全数据的聚类,该方法用其他一些聚类方法进行了说明,并与之进行了比较,特别是与文献中称为平滑(k)均值法的(l_2)聚类方法进行比较。数值实验表明,在这种情况下,所提出的\(l_1)-聚类算法比\(l_2)-聚类算法更快,并且给出了明显更好的结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Angulo,J.和Serra,J.(2007年)。极坐标表示、图像和视觉计算中彩色图像的建模和分割25(4): 475-495.;
[2] 阿瓦亚梅奥,S.(2006)。使用鲁棒聚类的知识挖掘,博士论文,Jyväskylä大学,Jyväskylä。;
[3] Bagirov,A.M.和Ugon,J.(2005)。一种最小化聚类函数的算法,优化54(4-5): 351-368.; ·Zbl 1122.90059
[4] Bagirov,A.M.、Ugon,J.和Webb,D.(2011年)。用于增量聚类构造和模式识别的快速改进全局k-means算法44(4): 886-876.; ·Zbl 1213.68514号
[5] Bezdek,J.C.(1981年)。用模糊目标函数算法进行模式识别,Kluwer学术出版社,马萨诸塞州诺威尔·Zbl 0503.68069号
[6] Boyd,D.L.和Vandenberghe,L.(2004)。《凸优化》,剑桥大学出版社,剑桥·Zbl 1058.90049号
[7] Chaovalitwingse,W.A.,Butenko,S.和Pardalos,P.M.(编辑)(2009年)。《生物网络中的集群挑战》,世界科学出版社,伦敦。;
[8] Choulakian,V.(2001)。L1中的鲁棒q模主成分分析,计算统计与数据分析,37(2): 135-150.; ·Zbl 1030.62050
[9] Clarke,F.H.(1990年)。优化和非光滑分析,SIAM,宾夕法尼亚州费城·Zbl 0696.49002号
[10] Cominetti,R.和Michelot,C.(1997年)。运筹学快报,最小多因素选址问题中重合的充分条件20(4): 179-185.; ·Zbl 0879.90131号
[11] Cord,A.、Ambroise,C.和Cockerez,J.-P.(2006)。基于拉普拉斯混合、模式识别字母的鲁棒聚类特征选择27(6): 627-635.;
[12] Cupec,R.、Grbi´c,R..、Sabo,K.和Scitovski,R.(2009年)。搜索最佳最小绝对偏差平面的三点法、应用数学与计算215(3): 983-994.; ·Zbl 1176.65017号
[13] 杜达·R、哈特·P和斯托克·D(2001)。模式分类,威利,纽约州纽约市·兹伯利0968.68140
[14] Finkel,D.E.和Kelley,C.T.(2006年)。《加性缩放和DIRECT算法》,《全局优化杂志》36(4): 597-608.; ·Zbl 1142.90488号
[15] Floudas,C.A.和Gounaris,C.E.(2009年)。全球优化的最新进展综述,《全球优化杂志》45(4): 3-38.; ·Zbl 1180.90245号
[16] Frąckiewicz,M.和Palus,H.(2011)。KHM聚类技术作为内窥镜彩色图像的分割方法,国际应用数学与计算机科学杂志21(1) :203-209,DOI:10.2478/v10006-011-0015-0。;
[17] Gan,G.、Ma,C.和Wu,J.(2007)。数据聚类:理论、算法和应用,宾夕法尼亚州费城SIAM·Zbl 1185.68274号
[18] Grbić,R.、Nyarko,E.K.和Scitovski,R.(2012)。对称函数Lipschitz全局优化直接方法的改进,全局优化杂志,57(4) :1193-1212,DOI:10.1007/s10898-012-0020-3·Zbl 1279.65076号
[19] Grbić,R.、Scitovski,K.、Sabo,K.和Scitovsvki,R.(2013)。用移动最小绝对偏差法逼近曲面,应用数学与计算219(9) :4387-4399·Zbl 1381.62068号
[20] Gurwitz,C.(1990年)。l1近似的加权中值算法30(2): 301-310.; ·Zbl 0704.65044号
[21] Hathaway,R.J.和Bezdek,J.C.(2001年)。不完全数据的模糊c均值聚类,IEEE系统、人与控制论汇刊,B部分:控制论31(5): 735-744.;
[22] Hubert,L.和Arabie,P.(1985)。比较分区,日志分类2(1): 193-218.; ·Zbl 0587.62128号
[23] Jain,A.(2010年)。超过k-means 50年,模式识别信件31(8): 651-666.;
[24] Jajuga,K.(1987)。基于L1-形式、计算统计和数据分析的聚类方法5(4): 357-371.; ·Zbl 0624.62058号
[25] Jajuga,K.(1991年)。基于L1-形式的模糊聚类、模糊集合和系统39(1): 43-50.; ·Zbl 0714.62052号
[26] Iyigun,C.(2007)。概率距离聚类,博士论文,研究生院,罗格斯,新泽西州新不伦瑞克。;
[27] Jones,D.R.、Perttunen,C.D.和Stuckman,B.E.(1993年)。;
[28] 无利普希茨常数的利普希兹优化,优化理论与应用杂志79(1): 157-181.; ·Zbl 0796.49032号
[29] Jörnsten,R.(2004)。基于L1数据深度的聚类和分类,多元分析杂志90(1): 67-89.; ·Zbl 1047.62064号
[30] Kogan,J.(2007)。《大维和高维数据聚类导论》,剑桥大学出版社,剑桥·Zbl 1183.62106号
[31] Leisch,F.(2006年)。用于k质心聚类分析、计算统计和数据分析的工具箱51(2): 526-544.; ·Zbl 1157.62439号
[32] Li,X.Hu,W.,Wang,H.和Zhang,Z.(2010)。使用旋转不变L1范数的线性判别分析,神经计算73(13-15):2571-2579。;
[33] Scitovski,R.和Scitovsvski,S.(2013)。一种快速划分算法及其在地震调查、计算机和地球科学中的应用59(1): 124-131.;
[34] Simiáski,K.(2012年)。缺失数据回归建模的神经模糊方法,国际应用数学与计算机科学杂志22(2) :461-476,DOI:10.2478/v10006-012-0035-4·Zbl 1283.93165号
[35] Späth,H.(1976年)。L1-聚类分析,计算16(4) :379-387·Zbl 0322.65008号
[36] Späth,H.(1987)。使用聚类分析中的L1形式,Y.Dodge(Ed.),《基于L1形式和相关方法的统计数据分析第一届国际会议论文集》,瑞士纽沙特尔大学,1987年8月31日至9月4日,阿姆斯特丹爱思唯尔,第427-434页。;
[37] Malinen,M.I.和Fränti,P.(2012年)。按分析函数聚类,信息科学217(1): 31-38.;
[38] Meng,D.,Zhao,Q和Xu,Z.(2012)。通过L1-形式最大化、模式识别提高稀疏PCA的鲁棒性45(1): 487-497.; ·Zbl 1225.68202号
[39] Pintér,J.D.(1996年)。行动中的全局优化(连续和Lipschitz优化:算法、实现和应用),Kluwer学术出版社,Dordrecht·Zbl 0842.90110号
[40] Ruszczynski,A(2006年)。非线性优化,普林斯顿大学出版社,普林斯顿/牛津,新泽西州·Zbl 1108.90001号
[41] Sabo,K.和Scitovski,R.(2008)。最佳最小绝对偏差线性特性和两种有效方法,ANZIAMJournal50(2): 185-198.; ·Zbl 1182.65023号
[42] Sabo,K.、Scitovski,R.和Vazler,I.(2011年)。基于给定数据搜索最佳LAD超平面来搜索超定线性方程组的最佳LAD解,优化理论与应用杂志149(2): 293-314.; ·Zbl 1219.90125号
[43] Sabo,K.、Scitovski,R.和Vazler,I.(2012年)。基于一维中心的l1聚类方法,Optimization Letters7(1): 5-22; ·兹比尔1283.90034
[44] Sabo,K.、Scitovski,R.、Vazler,I.和Zeki´c-Sušac,M.(2011)。天然气消耗、能量转换和管理的数学模型52(3): 1721-1727.;
[45] Teboulle,M.(2007)。基于中心的聚类方法的统一连续优化框架,机器学习研究杂志8(1): 65-102.; ·Zbl 1222.68318号
[46] Vardi,Y.,Zhang,C.H.(2000)。多元L1-median和相关数据深度,美国国家科学院学报97(4): 1423-1426.; ·Zbl 1054.62067号
[47] Vazler,I.、Sabo,K.和Scitovski,R.(2012)。解决最小绝对偏差问题的数据加权中位数,统计学中的通信——理论和方法41(8): 1455-1465.; ·兹比尔1319.62141
[48] Zhang,J.、Peng,L.、Zhao,X.和Kurooglu E.E.(2012)。通过学习多度量lq-norm距离、带应用程序的专家系统实现稳健的数据聚类39(1): 335-349.;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。