×

基于DCA的新的高效最小平方和聚类算法。 (英语) Zbl 1326.68225号

摘要:本文的目的是基于DC(凸函数差分)编程和DCA(DC算法)开发新的高效方法,通过最小平方和欧几里得距离进行聚类。我们考虑了两种最常用的所谓最小平方和聚类模型,即双层规划问题和混合整数规划。首先,仔细研究了MSSC的混合整数公式,并通过DC规划中精确惩罚技术的一个新结果将其重新表述为一个连续优化问题。然后对DCA进行调查,以解决由此产生的问题。其次,我们介绍了MSSC双层规划公式的高斯核版本,称为GKMSSC。GKMSSC问题被公式化为一个DC程序,为此开发了一个简单有效的DCA方案。为了利用DC分解的良好效果,研究了一种正则化技术,并开发了一种简单的方法来寻找DCA的良好起点。所提出的DCA方案是原创的,而且非常便宜,因为它们相当于在每次迭代时计算点在单纯形和/或球上和/或框上的投影,这些都是以显式形式确定的。实词数据集上的数值结果显示了效率,DCA的可扩展性及其相对于k均值和核k均值、标准聚类方法的巨大优势。

MSC公司:

68T05年 人工智能中的学习和自适应系统
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾泽曼,M。;Braverman,E。;Rozonoer,L.,模式识别学习中势函数方法的理论基础,自动化和远程控制,25821(1964)·Zbl 0151.24701号
[4] Bagirov,A.M.,最小平方和聚类问题的改进全局k均值算法,模式识别,41,10,3192-3199(2008)·Zbl 1147.68669号
[8] Brusco,M.J.,《最小类内平方和划分的重复分枝定界法》,《心理测量学》,71,347-363(2006)·Zbl 1306.62387号
[9] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20273-297(1995)·Zbl 0831.68098号
[10] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获取最大似然》,《皇家统计学会期刊:B辑》,39,1-38(1977)·Zbl 0364.62022号
[11] 迪龙,I.S。;科尔根,J。;Nicholas,C.,《特征选择和文档聚类》(Berry,M.W.,《文本挖掘综合调查》(2003),Springer-Verlag),73-100
[12] Fisher,D.,通过增量概念聚类获取知识,机器学习,2139-172(1987)
[13] 杜达,R.O。;Hart,P.E.,模式分类和场景分析(1972),威利
[15] Filippone,M。;卡马斯塔,F。;马苏利,F。;Rovetta,S.,《聚类的核和谱方法综述》,模式识别,41176-190(2008)·Zbl 1122.68530号
[16] Forgy,E.,多元数据效率与分类可解释性的聚类分析,生物计量学,21768(1965)
[17] Jancey,R.C.,多维群分析,澳大利亚植物学杂志,14,127-130(1996)
[18] Jain,A.K。;Murty,M.N。;Flynn,P.J.,《数据聚类综述》,ACM计算调查,31,3,264-323(1999)
[19] Joaquim,J.J。;Raydan,M。;Rosa,S.S。;Santos,S.A.,关于用谱投影梯度算法求解对称特征值互补问题,数值算法,47,4,391-407(2008)·Zbl 1144.65042号
[20] Hansen,P。;Jaumard,B.,聚类分析和数学规划,数学规划,79,191-215(1997)·Zbl 0887.90182号
[21] Herbrich,《学习内核分类器》(2002),麻省理工学院出版社·Zbl 1063.62092号
[25] An,Le Thi Hoai;Tao,Pham Dinh,用DC算法求解一类线性约束的不定二次型问题,全局优化杂志,11,3,253-285(1997)·Zbl 0905.90131号
[26] An,Le Thi Hoai;Tao,Pham Dinh,基于D.C.优化算法和椭球技术的分枝定界方法,用于箱约束非凸二次规划问题,《全局优化杂志》,13,171-206(1998)·Zbl 0912.90233号
[27] An,Le Thi Hoai;Tao,Pham Dinh,DC(凸函数的差异)编程和DCA与现实世界非凸优化问题的DC模型重访,运筹学年鉴,133,23-46(2005)·Zbl 1116.90122号
[29] An,Le Thi Hoai;Minh,Le Hoai;Tao,Pham Dinh,基于优化的DC编程和分层聚类的DCA,《欧洲运筹学杂志》,1831067-1085(2006)·Zbl 1149.90117号
[30] An,Le Thi Hoai;贝尔吉提,T。;Tao,Pham Dinh,基于DC编程和DCA的聚类新高效算法,《全局优化杂志》,37593-608(2007)·Zbl 1198.90327号
[31] An,Le Thi Hoai;Minh,Le Hoai;Tao,Pham Dinh,基于凸函数差分(DC)算法的非凸优化方法的模糊聚类,数据分析与分类进展杂志,2,1-20(2007)·Zbl 1301.90072号
[32] 安,黎锡怀;Minh,Le Hoai;Vinh,Nguyen Van;Tao,Pham Dinh,支持向量机学习中特征选择的DC编程方法,数据分析和分类进展杂志,2,3259-278(2008)·Zbl 1284.90057号
[34] 安,黎锡怀;Minh,Le Hoai;陶文鼎;Ngai,Huynh Van,通过DC编程和DCA通过球形分离器进行二元分类,全球优化杂志,23,1-15(2012)·Zbl 1322.90072号
[37] 刘,Y。;沈,X。;Doss,H.,多类别(psi-\operatorname{learning})与支持向量机,计算工具,计算与图形统计杂志,14,219-236(2005)
[38] 刘,Y。;Shen,X.,多类别(\psi-\operatorname{learning}),美国统计协会杂志,101500-509(2006)·Zbl 1119.62341号
[39] Mangasarian,O.L.,数据挖掘中的数学编程,数据挖掘和知识发现,1183-201(1997)
[41] O.杜梅尔。;Hansen,P。;Jaumard,B。;Mladenovi'c,N.,最小平方和聚类的内点算法,SIAM科学计算杂志,21,4,1485-1505(2000)·Zbl 1049.90129号
[42] Mladenović,N。;Hansen,P.,可变邻域搜索,计算机与运筹学,241097-1100(1997)·Zbl 0889.90119号
[45] 陶文鼎;An,Le Thi Hoai,求解信赖域子问题的DC优化算法,SIAM优化杂志,8,476-505(1998)·Zbl 0913.65054号
[47] 沈,X。;曾国藩。;张,X。;Wong,W.H.,(\psi-\operatorname{learning}),《美国统计协会杂志》,98,724-734(2003)·Zbl 1052.62095号
[48] Xavier,A.E。;Xavier,V.L.,通过双曲线平滑和划分边界和引力区域解决最小平方和聚类问题,模式识别,44,70-77(2011)·Zbl 1207.68326号
[49] Sherali,H.D。;Desai,J.,基于RLT的全局优化方法解决硬聚类问题,《全局优化杂志》,32,281-306(2005)·Zbl 1123.62045号
[51] Vinod,H.D.,整数规划和分组理论,《美国统计协会杂志》,64,506-519(1969)·Zbl 0272.90050号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。