×

\(k)-表示带有贪婪遗传算子的遗传算法。 (英语) Zbl 1459.62114号

摘要:(k)-均值问题是最流行的聚类分析模型之一。问题是NP-hard,现代文献提供了许多相互竞争的启发式方法。有时,实际问题需要在(k)均值模型的框架内获得这样的结果(尽管不是精确的),如果不显著增加计算时间或计算资源,用已知的方法很难对其进行改进。在这种情况下,带有贪婪凝聚启发式交叉算子的遗传算法可能是一个不错的选择。然而,它们的计算复杂性使得将它们用于大规模问题变得困难。包含k均值过程的交叉算子占据了此类算法的绝大多数计算时间,对于此类算法至关重要,而其他遗传算子(如变异)通常会被消除或简化。随着数据量和可用计算资源(如图形处理单元(GPU))的增加,保持种群多样性的重要性,尤其是使用变异算子的重要性更加显著。在本文中,我们为这类算法提出了一种新的贪婪启发式变异算子,并研究了新的和众所周知的变异算子对大规模\(k\)均值问题的遗传算法实现的目标函数值的影响。我们的计算实验证明了新的变异算子以及组织子种群的机制能够改进算法的结果。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
90 C59 数学规划中的近似方法和启发式
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Garey,M。;约翰逊,D。;Witsenhausen,H.,广义lloyd-max问题的复杂性(对应),IEEE信息理论汇刊,28,2,255-256(1982)·Zbl 0476.94009号 ·网址:10.1109/TIT.1982.1056488
[2] 阿洛伊斯,D。;Deshpande,A。;Hansen,P。;Popat,P.,欧几里德平方和聚类的NP-harrdness,机器学习,75,2,245-248(2009)·Zbl 1378.68047号 ·doi:10.1007/s10994-009-5103-0
[3] Drezner,Z。;Hamacher,H.,《设施位置:应用与理论》(2004),德国柏林:施普林格-弗拉格出版社,德国柏林
[4] Lloyd,S.,PCM中的最小二乘量化,IEEE信息理论汇刊,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[5] MacQueen,J.B.,《多元观测的一些分类和分析方法》,第五届伯克利数理统计与概率研讨会论文集,加利福尼亚大学出版社
[6] 库珀,L.,位置分配问题的启发式方法,SIAM Review,6,1,37-53(1964)·Zbl 0956.90014号 ·数字对象标识代码:10.1137/1006005
[7] 蒋J.-L。;袁晓明,约束多源韦伯问题的启发式算法——变分不等式方法,欧洲运筹学杂志,187,2,357-370(2008)·Zbl 1149.90091号 ·doi:10.1016/j.ejor.2007.02.043
[8] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EMA算法从不完整数据中获取最大似然》,《皇家统计学会杂志:B辑(方法学)》,39,1,1-22(1977)·Zbl 0364.62022号 ·doi:10.1111/j.2517-6161.1977.tb01600.x
[9] Kazakovtsev,L。;斯塔什科夫,D。;Gudyma,M。;Kazakovtsev,V.,混合概率分布分离的贪婪启发式算法,南斯拉夫运筹学杂志,29,1,51-67(2019)·Zbl 1474.65171号 ·doi:10.2298/YJOR171110.2298/yjor171107030k
[10] 张,T。;Ramakrishnan,R。;Livny,M.,BIRCH:超大型数据库的高效数据聚类方法,1996年ACM SIGMOD国际数据管理会议论文集(SIGMOD'96),ACM·数字对象标识代码:10.1145/233269.233324
[11] O'Callaghan,L。;Meyerson,A。;Motwani,R。;米什拉,N。;Guha,S.,《高质量集群的流数据算法》,数据工程,第18届数据工程国际会议论文集,IEEE·doi:10.1010/ICDE.2002.994785文件
[12] Ackermann,M.R。;Märtens,M。;劳帕奇,C。;瑞典斯威科特。;Lammersen,C。;Sohler,C.,StreamKM++,美国计算机学会实验算法期刊,17,2(2012)·Zbl 1284.68234号 ·doi:10.1145/2133803.2184450
[13] Masuyama,S。;茨城,T。;长谷川,T.,平面上m中心问题的计算复杂性,日本电子与通信工程师学会学报,64E,57-64(1981)
[14] O.卡里夫。;Hakimi,S.L.,网络位置问题的算法方法。一: thep-centers,SIAM应用数学杂志,37,3,513-538(1979)·Zbl 0432.90074号 ·doi:10.1137/013704010.1137/0137041
[15] Kuenne,R.E。;Soland,R.M.,多源韦伯问题的精确和近似解,数学规划,3-3193-209(1972)·Zbl 0245.90021号 ·doi:10.1007/BF01584989
[16] Ostresh,L.M.,《逐步位置分配问题:连续和离散空间中的精确解》,《地理分析》,10,2,174-185(1978)·doi:10.1111/j.1538-4632.1978.tb00006.x
[17] Rosing,K.E.,解决(广义)多韦伯问题的最优方法,《欧洲运筹学杂志》,58,3,414-426(1992)·Zbl 0760.90064号 ·doi:10.1016/0377-2217(92)90072-H
[18] 法拉哈尼,R.Z。;Hekmatfar,M.,《设施位置概念、模型、算法和案例研究》(2009年),德国柏林海德堡:施普林格弗拉格出版社,德国柏林-海德堡·doi:10.1007/978-3-7908-2151-2
[19] Mladenovic,N。;Brimberg,J。;Hansen,P。;Moreno-Perez,J.A.,《p-median问题:元启发式方法的调查》,《欧洲运筹学杂志》,179927-939(2007)·Zbl 1163.90610号 ·doi:10.1016/j.ejor.2005.05.034
[20] Reese,J.,《中层问题的解决方法:注释书目》,《网络》,48,3,125-142(2006)·Zbl 1133.90357号 ·doi:10.1002/net.20128
[21] Brimberg,J。;Drezner,Z。;Mladenović,N。;Salhi,S.,《连续位置问题的新局部搜索》,《欧洲运筹学杂志》,232,2,256-265(2014)·Zbl 1305.90267号 ·doi:10.1016/j.ejor.2013.06.022
[22] Drezner,Z。;Brimberg,J。;Mladenović,N。;Salhi,S.,求解平面p-中值问题的新启发式算法,计算机与运筹学,62996-304(2015)·Zbl 1348.90388号 ·doi:10.1016/j.cor.2014.05.010
[23] Drezner,Z。;Brimberg,J。;Mladenović,N。;Salhi,S.,通过可变邻域和同心搜索解决平面p-中值问题,全球优化杂志,63,3501-514(2015)·Zbl 1327.90090号 ·doi:10.1007/s10898-014-0183-1
[24] 北米什拉。;Oblinger,D。;Pitt,L.,《次线性时间近似聚类》(2001),加利福尼亚州帕洛阿尔托市,美国:美国加利福尼亚州帕洛阿尔托市Hewlett-Packard实验室·Zbl 0987.68068号 ·数字对象标识代码:10.1145/365411.365499
[25] 考夫曼,L。;Rousseeuw,P.J.,《在数据中发现群体:聚类分析导论》(1990),美国纽约州纽约市:美国纽约州威利·Zbl 1345.62009号 ·doi:10.1002/9780470316801
[26] 艾森布兰德,F。;Grandoni,F。;Rothvosz,T。;Schafer,G.,通过随机设施采样和核心绕道近似连接设施位置问题,2008年SODA会议记录,ACM·数字对象标识代码:10.1145/1347082.1347210
[27] Jaiswal,R。;库马尔,A。;Sen,S.,《k均值和其他聚类问题的简单D2-抽样PTAS》,《算法》,70,1,22-46(2014)·Zbl 1364.68369号 ·doi:10.1007/s00453-013-9833-9
[28] Avella,P。;博恰,M。;萨勒诺,S。;Vasilyev,I.,《大规模p-median问题的聚合启发式》,计算机与运筹学,39,7,1625-1632(2012)·Zbl 1251.90234号 ·doi:10.1016/j.cor.2011.09.016
[29] 弗朗西斯,R.L。;Lowe,T.J。;Rayco,M.B。;Tamir,A.,《位置模型的聚合误差:调查与分析》,《运筹学年鉴》,167,1171-208(2009)·Zbl 1173.90005号 ·doi:10.1007/s10479-008-0344-z
[30] 亚瑟·D·。;Vassilvitskii,S.,k-Means++:细心播种的优势,《2007年SODA会议录》,SIAM·Zbl 1302.68273号
[31] Hansen,P。;Mladenovic,N。;伯克。英国。;Kendall,G.,可变邻域搜索,搜索方法学(2005),马萨诸塞州波士顿,美国:斯普林格,马萨诸塞诸塞州波斯顿,美国·数字对象标识代码:10.1007/0-387-28356-08
[32] 罗日诺夫,I.P。;奥洛夫,V.I。;Kazakovtsev,L.A.,基于VNS的重心聚类算法,Facta Universitatis Series:数学与信息学,34,5,957-972(2019)·Zbl 1474.90385号 ·doi:10.22190/FUMI1905957R
[33] 尽管如此,S。;比亚莱克,W。;Bottou,L.,使用信息瓶颈方法的几何聚类,《神经信息处理系统进展论文集》,英国剑桥:麻省理工学院出版社,英国剑桥
[34] 孙,Z。;福克斯,G。;顾伟(Gu,W.)。;Li,Z.,一种结合信息瓶颈理论和基于中心聚类的并行聚类方法,《超级计算杂志》,69,1,452-467(2014)·doi:10.1007/s11227-014-1174-1
[35] 胡克,C.R。;Joines,J.A。;Kay,M.G.,用于解决大型位置分配问题的遗传算法、随机重启和双选择切换的比较,计算机与运筹学,23,6,587-596(1996)·Zbl 0847.90091号 ·doi:10.1016/0305-0548(95)00063-1
[36] Maulik,美国。;Bandyopadhyay,S.,基于遗传算法的聚类技术,模式识别,33,9,1455-1465(2000)·doi:10.1016/S0031-3203(99)00137-5
[37] Krishna,K。;Narasimha Murty,M.,《遗传K-means算法》,IEEE系统事务,人与控制论,B部分(控制论),29,3,433-439(1999)·doi:10.1109/3477.764879
[38] Neema,M.N。;马尼鲁扎曼,K.M。;Ohgai,A.,基于新遗传算法的连续p-中值问题方法,网络与空间经济学,11,1,83-99(2011)·Zbl 1213.90163号 ·doi:10.1007/s11067-008-9084-5
[39] 哈萨克斯坦,洛杉矶。;Rozhnov,I.,《可变贪婪启发式算法在k-medoids问题中的应用》,Informatica,44,1,55-61(2020)·doi:10.31449/inf.v44i1.2737
[40] 霍斯奇,C.M。;Goodchild,M.F.,遗传算法的离散空间位置分配解决方案,运筹学年鉴,6,2,35-46(1986)·doi:10.1007/bf02027381
[41] 阿尔卑斯山。;埃尔库特。;Drezner,Z.,p中值问题的高效遗传算法,运筹学年鉴,122,1/4,21-42(2003)·Zbl 1038.90046号 ·doi:10.1023/A:1026130003508
[42] Kim,K。;Ahn,H.,在线购物市场中使用GA K-means集群的推荐系统,xpert Systems with Applications,34,2,1200-1209(2008)·doi:10.1016/j.eswa.2006.12.025
[43] 哈萨克斯坦,洛杉矶。;Antamoshkin,A.N.,《聚类和位置问题的快速贪婪启发式遗传算法》,Informatica,38,3,229-240(2014)
[44] Kwedlo,W。;Iwanowicz,P.,《使用遗传算法为K-Means方法选择初始聚类中心》,ICAISC 2010:人工智能和软计算(2010),德国柏林海德堡:斯普林格-Verlag,柏林海德伯格
[45] 何,Z。;Yu,C.,基于聚类稳定性的进化K-means,软计算,23,1305-321(2019)·Zbl 07075521号 ·doi:10.1007/s00500-018-3280-0
[46] Pizzuti,C.披萨。;Procopio,N.,基于K均值的遗传算法用于数据聚类,国际联合会议论文集SOCO’16-CISIS’16-ICEUTE’16·doi:10.1007/978-3-319-47364-210.1007/9783-319-47364-2_21
[47] Rousseeuw,P.J.,《剪影:聚类分析解释和验证的图形辅助》,《计算与应用数学杂志》,20,53-65(1987)·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[48] Davies,D.L。;Bouldin,D.W.,集群分离度量,IEEE模式分析和机器智能汇刊,1,224-227(1979)·doi:10.1109/TPAMI.1979.4766909
[49] remeev,A.V.,将锦标赛选择作为局部搜索方法的遗传算法,《离散分析与运筹学》,第19、2、41-53页(2012年)·Zbl 1324.68172号 ·doi:10.1134/S1990478912030039
[50] Holland,J.H.,《自然和人工系统的适应》(1992),英国剑桥:麻省理工学院出版社,英国剑桥
[51] Fogel,D.B。;Atmar,J.W.,《使用线性系统比较模拟进化过程中的遗传算子和高斯突变》,生物控制论,63,2,111-114(1990)·doi:10.1007/BF00203032
[52] 刘,C。;Kroll,A.,《关于设计用于解决中小型旅行推销员问题的遗传算法》,Swarm and Evolutionary Computation,7269,283-291(2012)·doi:10.1007/978-3-642-29353-5_33
[53] E.大阪。;卡巴列多,R。;迪亚兹,F。;Onieva,E。;de la Iglesia,I。;Perallos,A.,《交叉与变异:应用于组合优化问题的遗传算法进化策略的比较分析》,《科学世界杂志》,2014(2014)·doi:10.1155/2014/154676
[54] 沃肯霍斯特,J。;Bertram,T.,《Multikritrielleoptimierungsverfahren皮毛捡拾和运送问题》,第21期会议记录。计算智能研讨会
[55] 哈萨克斯坦,洛杉矶。;Antamoshkin,A.N.,位置问题的贪婪启发式方法,Vestnik SibGAU,16,2,317-325(2015)
[56] Zeebaree,D.Q。;哈龙,H。;Abdulazez,A.M。;Zeebaree,S.R.M.,《K均值聚类与遗传算法的结合:综述》,《国际应用工程研究杂志》,12,24,14238-14245(2017)
[57] 赫鲁晓卡。R。;坎佩罗,R.J.G.B。;Freitas,A.A。;de Carvalho,A.C.P.L.F.,《集群进化算法的调查》,IEEE系统、人与控制论汇刊,C部分(应用与评论),39,2,133-155(2009)·doi:10.1109/TSMCC.2008.2007252
[58] Freitas,A.A.,《数据挖掘进化算法综述、数据挖掘和知识发现手册》(2009),英国牛津:牛津大学,英国牛津
[59] Bandyopadhyay,S.,《聚类和模糊聚类的遗传算法》,《威利跨学科评论:数据挖掘和知识发现》,第1期,第6期,第524-531页(2011年)·doi:10.1016/j.ress.2020.10682110.1002/widm.47
[60] 拉腊尼亚加,P。;Kuijpers,C.M.H。;Murga,R.H。;Inza,I。;Dizdarevic,S.,《旅行推销员问题的遗传算法:表征和算子综述》,《人工智能评论》,13,2,129-170(1999)·doi:10.1023/A:1006529012972
[61] 萨兰吉,A。;伦卡,R。;Sarangi,S.K.,使用高斯变异粒子群优化算法设计线性相位高通滤波器,《群体、进化和模因计算学报》
[62] 德布,D。;Deb,K.,《实参数遗传算法中变异方案的研究》,Swarm,Evolutionary,and Memetic Computing,7677,1-8(2012)·doi:10.1007/978-3642-35380-2_1
[63] Deep,K。;Thakur,M.,实数编码遗传算法的新变异算子,应用数学与计算,193,1,211-230(2007)·Zbl 1193.68209号 ·doi:10.1016/j.amc.2007.03.046
[64] Deep,K。;Mebrahtu,H.,旅行商问题的遗传算法组合变异算子,国际组合优化问题与信息学杂志,2,3,1-23(2011)
[65] Hong,T.-P。;王海生。;Chen,W.C.,在遗传算法中同时应用多个变异算子,启发式杂志,6,4,439-455(2000)·Zbl 0972.68630号 ·doi:10.1023/A:1009642825198
[66] 麦金利,B。;Maher,J。;奥里奥丹,C。;Morgan,F.,《使用自适应交叉、变异和选择保持健康的种群多样性》,IEEE进化计算汇刊,15,5,692-714(2011)·doi:10.1109/TEVC.2010.2046173
[67] Serpell,M。;Smith,J.E.,变异算子的自适应和遗传算法中置换表示的概率,进化计算,18,3,491-514(2010)·doi:10.1162/EVCO__00006
[68] Brizuela,C.A。;Aceves,R.,《多目标置换Flowshop的实验遗传算子分析》(2003),柏林,海德堡,加曼:施普林格-弗拉格,柏林,海德堡,加曼·Zbl 1036.90518号
[69] Wang,L。;Zhang,L.,确定流水车间调度的遗传算子最优组合,国际先进制造技术杂志,30,3-4,302-308(2006)·doi:10.1007/s00170-005-0082-1
[70] 哈桑,B.H.F。;Saleh,M.S.M.,评估变异算子对应用于非确定性多项式问题的遗传算法行为的有效性,Informatica,35,4,513-518(2011)
[71] Karthikeyan,P。;Baskar,S。;Alphones,A.,使用不同遗传算子组合(GOC)的改进遗传算法用于自组网中的多播路由,软计算,17,9,1563-1572(2013)·文件编号:10.1007/s00500-012-0976-4
[72] 科雷亚。美国。;斯坦纳,M.T.A。;Freitas,A.A。;Carnieri,C.,《p-median问题的遗传算法》,《GECCO-2001会议录》,加利福尼亚州旧金山,美国:Morgan Kaufmann Publishers Inc,加利福尼亚州洛杉矶,美国
[73] Hansen,P。;Mladenović,N.,J-Means:最小平方和聚类的一种新的局部搜索启发式算法,模式识别,34,2,405-413(2001)·Zbl 1012.68873号 ·doi:10.1016/S0031-3203(99)00216-2
[74] Alkhalifah,Y。;温赖特,R.L.,一种应用于涉及顶点子集的图问题的遗传算法,2004年进化计算大会论文集,波特兰,IEEE·文件编号:10.1109/CEC.2004.133087
[75] 卢,Y。;卢,S。;Fotouhi,F。;邓,Y。;Brown,S.J.,FGKA:一种快速遗传k-means聚类算法,2004年ACM应用计算研讨会论文集-SAC’04·doi:10.1145/967900.968029
[76] Cheng,S.S。;Chao,Y.H。;Wang,H.M。;Fu,H.C.,嵌入原型的遗传k-means算法,第18届模式识别国际会议论文集(ICPR’06),IEEE·doi:10.10109/ICPR.2006.155
[77] Chang,D.-X。;张,X.-D。;Zheng,C.-W.,用于K-means聚类的基因重排遗传算法,模式识别,42,7,1210-1222(2009)·doi:10.1016/j.patcog.2008.11.006
[78] Goldberg,D.E。;Richarson,J.,用于多峰函数优化的共享遗传算法,第二届遗传算法国际会议论文集
[79] Jong,K.A.D.,一类遗传适应系统的行为分析(1975),密歇根州安娜堡,美国:密歇根大学
[80] 蒙苏尔,O。;Goldberg,D.,《概率拥挤:确定性拥挤与概率替代》(1999),美国加利福尼亚州旧金山:摩根考夫曼出版公司,加利福尼亚州旧金山,美国
[81] 小野,I。;Kobayashi,S.,《使用单峰正态分布交叉的实数编码遗传算法:自然计算系列》(2003),柏林,海德堡,德国:施普林格-弗拉格,柏林,德国海德堡
[82] Dumitrescu,D。;Stoean,C.,《遗传染色动力学元启发式》,《2006年电视信息会议论文集》,WSEAS,Stevens Point
[83] 右肺。;Dumitrescu,D.,《漫游优化:一种新的多模态优化进化技术》,博莱大学信息研究所,XLIX,199-109(2004)·Zbl 1118.90330号
[84] Zechner,M。;Granizer,M.,通过CUDA在图形处理器上加速K-means,密集型应用和服务国际会议论文集·doi:10.1109/INTENSIVE.2009.19
[85] Luebke,D。;Humphreys,G.,《GPU如何工作》,《计算机》,第40、2、96-100页(2007年)·doi:10.1109/mc.2007.59
[86] Sivanandam,S.N。;Deepa,S.N.,《遗传算法导论》(2007),德国柏林:施普林格,德国柏林·Zbl 1129.90001号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。