×

最小平方和聚类问题的混合整数编程技术。 (英语) Zbl 1522.90036号

摘要:最小平方和聚类问题是数据挖掘和机器学习中的一个非常重要的问题,在医学或社会科学等领域有很多应用。然而,众所周知,它在所有相关情况下都是NP-hard,并且在实践中很难求解到全局最优。在本文中,我们开发并测试了不同的定制混合整数编程技术,以提高最先进的MINLP求解器在应用于该问题时的性能,其中包括切割平面、传播技术、分支规则或原始启发式。我们的大量数值研究表明,我们的技术显著提高了开源MINLP求解器SCIP的性能。因此,使用我们的新技术,如果没有我们的技术,我们可以解决许多SCIP无法解决的实例,并且对于那些仍然无法解决全局最优的实例,我们可以获得更小的差距。

MSC公司:

90立方厘米 整数编程
90立方厘米 混合整数编程
90C57型 多面体组合学,分支与绑定,分支与切割
90-08 运筹学和数学规划相关问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Achterberg,T。;科赫,T。;Martin,A.,《重新审视分支规则》,Oper。Res.Lett.公司。,33, 1, 42-54 (2005) ·Zbl 1076.90037号 ·doi:10.1016/j.orl.2004.04.002
[2] 阿洛伊斯,D。;Deshpande,A。;Hansen,P。;Popat,P.,《欧几里德平方和聚类的NP-harderness》,马赫。学习。,75, 245-248 (2009) ·Zbl 1378.68047号 ·doi:10.1007/s10994-009-5103-0
[3] 阿洛伊斯,D。;Hansen,P.,基于分支和切割SDP的最小平方和聚类算法,Pesquisa Operacional,29,503-516(2009)·doi:10.1590/S0101-74382009000300002
[4] 阿洛伊斯,D。;Hansen,P.,《评估基于分支约束RLT的最小平方和聚类算法》,J.Global Optim。,49, 449-465 (2011) ·Zbl 1213.90205号 ·doi:10.1007/s10898-010-9571-3
[5] 阿洛伊斯,D。;Hansen,P。;Liberti,L.,最小平方和聚类的改进列生成算法,数学。程序。,131, 195-220 (2012) ·Zbl 1236.90095号 ·doi:10.1007/s10107-010-0349-7
[6] 理发师,CB;Dobkin,DP;Huhdanpaa,H.,凸壳的Quickhull算法,ACM Trans。数学。软质。,22, 4, 469-483 (1996) ·Zbl 0884.65145号 ·doi:10.1145/235815.235821
[7] Brusco,MJ,《最小平方和的重复分枝定界法》,《心理学》,71,2,347-363(2006)·Zbl 1306.62387号 ·doi:10.1007/s11336-004-1218-1
[8] 伯加德,JP;科斯塔,CM;Schmidt,M.,《稳健k-means聚类问题的分解方法:如果不太保守并不意味着不那么糟糕》,Ann.Oper。决议(2022年)·doi:10.1007/s10479-022-04818-w
[9] 陈,C。;罗,J。;Parker,K.,《通过自适应Kmean聚类和基于知识的形态学操作与生物医学应用的图像分割》,IEEE Trans。图像处理。,7, 12, 1673-1683 (1998) ·数字对象标识代码:10.1109/83.730379
[10] 加利福尼亚州库斯塔·阿尔贝托斯;Fraiman,R.,功能数据的公平修剪k均值,计算。统计数据分析。,51, 10, 4864-4877 (2007) ·兹比尔1162.62377 ·doi:10.1016/j.csda.2006.07.011
[11] Dasgupta,S.:硬度\(k\)-表示聚集。技术代表。技术报告CS2008-0916。加利福尼亚大学计算机科学与工程系(2007年)。http://cseweb.ucsd.edu/dasgupta/papers/kmeans.pdf
[12] 达塔,S。;Datta,S.,微阵列基因表达数据统计聚类技术的比较与验证,生物信息学,19,4,459-466(2003)·doi:10.1093/bioinformatics/btg025
[13] De Rosa,A。;Khajavirad,A.,比率切割多面体和K-means聚类,SIAM J.Optim。,32, 1, 173-203 (2022) ·兹比尔1486.90120 ·doi:10.1137/20M1348601
[14] 德扎,MM;Laurent,M.,《切割几何与公制》(1997),柏林:施普林格出版社,柏林·Zbl 0885.52001号 ·doi:10.1007/978-3642-04295-9
[15] Diehr,G.,聚类分枝定界算法的评估,SIAM J.Sci。统计计算。,6, 2, 268-284 (1985) ·Zbl 0561.65097号 ·doi:10.1137/0906020
[16] Dua,D.,Graff,C.:UCI机器学习库。(2017). http://archive.ics.uci.edu/ml
[17] 马萨诸塞州杜兰;Grossmann,IE,一类混合整数非线性程序的外近似算法,数学。程序。,36, 3, 307-339 (1986) ·Zbl 0619.90052号 ·doi:10.1007/BF02592064
[18] 杜梅尔,O。;Hansen,P。;Jaumard,B。;Mladenovic,N.,最小平方和聚类的内点算法,SIAM J.Sci。计算。,21, 4, 1485-1505 (1999) ·兹比尔1049.90129 ·doi:10.1137/S10648275973283227
[19] Fisher,RA,《分类问题中多重测量的使用》,Ann.Eugen。,7, 2, 179-188 (1936) ·文件编号:10.1111/j.1469-1809.1936.tb02137.x
[20] 弗莱彻,R。;Leyffer,S.,《用外近似法求解混合整数非线性程序》,数学。程序。,66, 1, 327-349 (1994) ·Zbl 0833.90088号 ·doi:10.1007/BF01581153
[21] 佛罗里达州。;阿加瓦尔,A。;Ciric,A.,非凸NLP和MINLP问题的全局最优搜索,计算。化学。工程,13,10,1117-1132(1989)·doi:10.1016/0098-1354(89)87016-4
[22] Fränti,宾夕法尼亚州。;Sieranoja,S.,\(k\)-表示六个集群基准数据集上的属性,Appl。智力。,48, 12, 4743-4759 (2018) ·Zbl 1521.68212号 ·doi:10.1007/s10489-018-1238-7
[23] Fränti,宾夕法尼亚州。;Sieranoja,S.,“通过使用更好的初始化和重复可以改进多少?”?,图案识别。,93, 95-112 (2019) ·doi:10.1016/j.patcog.2019.04.014
[24] Fukuda,K.:cdd/cdd+参考手册。收录:ETH-Zentrum运营研究所,第91-111页(1997年)
[25] Fukunaga,K。;纳伦德拉,P。;Koontz,W.,分支定界聚类算法,IEEE Trans。计算。,24, 9, 908-915 (1975) ·Zbl 0308.68039号 ·doi:10.10109/T-C.1975.224336
[26] Gamrath,G.,Anderson,D.,Bestuzheva,K.,Chen,W.-K.,Eifler,L.,Gasse,M.,Gemander,P.,Gleixner,A.,Gottwald,L.,Wegscheider,F。,Weninger,D.,Witzig,J.:SCIP优化套件7.0。工程技术代表20-10。塔库斯特。7,14195柏林:ZIB(2020)
[27] Gilpin,A。;Sandholm,T.,搜索中分支的信息论方法,离散优化。,8, 2, 147-159 (2011) ·Zbl 1241.90183号 ·doi:10.1016/j.disopt.2010.07.001
[28] Gonzalez,TF,聚类以最小化最大簇间距离,Theor。计算。科学。,38, 293-306 (1985) ·Zbl 0567.62048号 ·doi:10.1016/0304-3975(85)90224-5
[29] Grötschel,MH,大型对称旅行商问题的求解,数学。程序。,51, 141-202 (1991) ·Zbl 0733.90047号 ·doi:10.1007/BF01586932
[30] Guns,T.,Dao,T.-B.-H.,Vrain,C.,Duong,K.C.:使用约束规划对约束最小平方和聚类进行重复分支和定界。收录:第二十二届欧洲人工智能会议论文集(ECAI’16)。IOS出版社,NLD,第462-470页(2016年)。doi:10.3233/978-1-61499-672-9-462
[31] Han,S.,《空间分层和社会空间不平等:韩国首尔和釜山的案例》,《人类》。社会科学。社区。,9, 1, 23 (2022) ·doi:10.1057/s41599-022-01035-5
[32] He,H.、Chen,J.、Jin,H.,Chen,S.-H.:基于K-means聚类和回归模型的交易策略。收录于:Chen,S.-H.,Wang,P.P.,Kuo,T.-W.(编辑),《经济与金融中的计算智能:第二卷》,第123-134页。施普林格,柏林(2007)。doi:10.1007/978-3-540-72821-47
[33] 海因茨,G。;彼得森,LJ;约翰逊,RW;Kerk,CJ,探索身体维度中的关系,J.Stat.Educ。(2003) ·doi:10.1080/10691898.2003.11910711
[34] 霍斯特,R。;Tuy,H.,《全局优化》(1996),柏林:施普林格出版社,柏林·Zbl 0867.90105号 ·doi:10.1007/978-3-662-03199-5
[35] Hua,K.,Shi,M.,Cao,Y.:用于聚类问题的可扩展确定性全局优化算法。参加:机器学习国际会议。PMLR,第4391-4401页(2021年)。https://proceedings.mlr.press/v139/hua21a.html
[36] 凯贝尔,V。;佩恩哈特,M。;Pfetsch,ME,Orbitopal固定,Discret。最佳。,8, 4, 595-610 (2011) ·Zbl 1235.90091号 ·doi:10.1016/j.disopt.2011.07.001
[37] 凯贝尔,V。;Pfetsch,ME,包装和分割轨道,数学。程序。,114, 1, 1-36 (2008) ·Zbl 1171.90004号 ·doi:10.1007/s10107-006-0081-5
[38] 自由,L。;Manca,B.,《边约束最小平方和聚类:数学规划和随机投影》,J.Global Optim。(2021) ·Zbl 1491.90141号 ·doi:10.1007/s10898-021-01047-6
[39] Lloyd,S.,PCM中的最小二乘量化,IEEE Trans。Inf.理论,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[40] MacQueen,J.:多元观测分类和分析的一些方法。摘自:《第五届伯克利数理统计与概率研讨会论文集》,第1卷:统计学,第281-297页。加州大学出版社,伯克利分校(1967)。https://projecteuclid.org/euclid.bsmsp/1200512992 ·Zbl 0214.46201号
[41] Mahajan,M.,Nimbhorkar,P.,Varadarajan,K.:平面K均值问题是NP-hard。收录:理论计算机科学442。算法与计算研讨会专刊(WALCOM 2009),第13-21页(2012)。doi:10.1016/j.tcs.2010.05.034文件·Zbl 1260.68158号
[42] Padberg,M。;Rinaldi,G.,《解决大规模对称旅行商问题的分支与切割算法》,SIAM Rev.,33,1,60-100(1991)·兹比尔0734.90060 ·数字对象标识代码:10.1137/1033004
[43] 帕尔,斯洛伐克;Majumder,DD,元音和说话人识别中的模糊集和决策方法,IEEE Trans。系统。人类网络。,7, 8, 625-629 (1977) ·Zbl 0358.68136号 ·doi:10.1109/TSMC.1977.4309789
[44] 彭杰。;魏勇,通过半定规划逼近k均值型聚类,SIAM J.Optim。,18, 1, 186-205 (2007) ·兹比尔1146.90046 ·doi:10.1137/050641983年
[45] Peng,J.,Xia,Y.:最小平方和误差聚类的切割算法。摘自:2005年SIAM国际数据挖掘会议论文集,第150-160页(2005)。doi:10.1137/1.9781611972757.14
[46] Peng,J.,Xia,Y.:k-means型聚类的新理论框架。In:数据挖掘的基础和进展。柏林施普林格出版社,第79-96页(2005年)。doi:10.1007/11362197_4·Zbl 1085.68132号
[47] Piccialli,V。;苏多佐,AM;Wiegele,A.,SOS-SDP:最小平方和聚类的精确解算器,INFORMS J.Compute。,34, 4, 2144-2162 (2022) ·Zbl 07587562号 ·doi:10.1287/ijoc.2022.1166
[48] Plastia,F.,《组合优化中的逻辑含义公式化》,欧洲期刊Oper。第140、2、338-353号决议(2002年)·Zbl 1001.90001号 ·doi:10.1016/S0377-2217(02)00073-5
[49] 明尼苏达州普拉萨德;Hanasusanto,GA,《(k)-均值聚类的改进圆锥曲线公式》,SIAM J.Optim。,28, 4, 3105-3126 (2018) ·Zbl 1408.90237号 ·doi:10.1137/17M1135724
[50] 克萨达,I。;Grossmann,IE,凸MINLP优化问题的基于LP/NLP的分支定界算法,计算。化学。工程师,16,10-11,937-947(1992)·doi:10.1016/0098-1354(92)80028-8
[51] Reinelt,G.,TSPLIB-A旅行推销员问题库,ORSA J.Compute。,3, 4, 376-384 (1991) ·Zbl 0775.90293号 ·doi:10.1287/ijoc.3.4.376
[52] Ruspini,EH,模糊聚类的数值方法,信息科学。,2, 3, 319-350 (1970) ·Zbl 0205.21301号 ·doi:10.1016/S0020-0255(70)80056-1
[53] 桑加利,LM;塞奇,P。;Vantini,S。;维泰利,V.,《曲线聚类的k均值对齐》,计算。统计数据分析。,54, 5, 1219-1233 (2010) ·Zbl 1464.62153号 ·doi:10.1016/j.csda.2009.12.008
[54] 香农,CE,通信数学理论,贝尔系统。《技术期刊》,27,3,379-423(1948)·Zbl 1154.94303号 ·doi:10.1002/j.1538-7305.1948.tb01338.x
[55] 谢拉利,HD;Desai,J.,一种基于RLT的全局优化方法,用于解决硬聚类问题,J.global Optim。,32, 281-306 (2005) ·Zbl 1123.62045号 ·doi:10.1007/s10898-004-2706-7
[56] Sobol’,I.,关于立方体中点的分布和积分的近似计算,苏联计算。数学。数学。物理。,7, 4, 86-112 (1967) ·Zbl 0185.41103号 ·doi:10.1016/0041-5553(67)90144-9
[57] Späth,H.,《用于数据简化和对象分类的聚类分析算法》(1980),布里斯托尔:霍伍德,布里斯托·Zbl 0435.62059号
[58] Steinley,D.,K-意思是集群:半个世纪的综合,Br.J.Math。统计心理学。,59, 1, 1-34 (2006) ·doi:10.1348/000711005X48266
[59] Tan,议员;拉刀,JR;加利福尼亚州弗洛达斯,《一种新的聚类方法和最佳簇数预测:具有增强定位的全局最优搜索》,J.global Optim。,39, 323-346 (2007) ·Zbl 1149.90108号 ·doi:10.1007/s10898-007-9140-6
[60] 蒂恩·尤克,C。;Gómez-Pérez,D。;Balcázar,JL;Montaña,JL,k-means聚类的全局最优性,信息科学。,439-440, 79-94 (2018) ·Zbl 1440.68240号 ·doi:10.1016/j.ins.2018.02.001
[61] 郑,A。;江,B。;李毅。;张,X。;Ding,C.,使用后验概率的弹性K-means,PLOS ONE,12,12(2017)·doi:10.1371/journal.pone.0188252
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。