×

通过深度强化学习解决具有优先约束的旅行推销员问题。 (英语) Zbl 1522.68499号

Bergmann,Ralph(编辑)等人,KI 2022:人工智能的进展。2022年9月19日至23日在德国特里尔举行的第45届德国人工智能会议。诉讼程序。查姆:斯普林格。莱克特。注释计算。科学。13404, 160-172 (2022).
总结:这项工作通过采用适用于常规TSP的最新方法,提出了使用深度强化学习(DRL)解决具有优先约束的旅行推销员问题(TSPPC)的解决方案。这些方法的共同点是使用基于多头部注意层的图形模型。解决取送问题(PDP)的一个想法是使用异构关注来嵌入每个节点可以承担的不同可能角色。在这项工作中,我们将异质关注的概念推广到TSPPC。此外,我们采用了最新的思想来减少关注,以获得更好的可扩展性。总的来说,我们通过应用和评估最新的DRL方法来解决TSPPC,为研究界做出了贡献。我们的代码位于https://github.com/christianll9/tsppc-drl.
关于整个系列,请参见[Zbl 1511.68009号].

MSC公司:

68T07型 人工神经网络与深度学习
90C27型 组合优化

软件:

LKH公司;OR-醇
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ascheuer,N。;Jünger,M。;Reinellt,G.,具有优先约束的非对称旅行推销员问题的分支和切割算法,计算。最佳方案。申请。,17, 1, 61-84 (2000) ·Zbl 1017.90095号 ·doi:10.1023/A:1008779125567
[2] Bdeir,A.,Boeder,S,Dernedde,T.,Tkachuk,K.,Falkner,J.K.,Schmidt-Thieme,L.RP-DQN:q学习在车辆路径问题中的应用。KI 2021,3-16(2021)
[3] Bello,I.、Pham,H.、Le,Q.V.、Norouzi,M.、Bengio,S.:具有强化学习的神经组合优化。In:ICLR研讨会(2017)
[4] Dumitrescu,I。;罗普克,S。;科尔多,J-F;Laporte,G.,《带取货和送货的旅行推销员问题:多面体结果和分叉算法》,数学。程序。,121, 2, 269-305 (2010) ·Zbl 1184.90108号 ·doi:10.1007/s10107-008-0234-9
[5] Escudero,LF,序列排序问题的不精确算法,Eur.J.Oper。研究,37,2,236-249(1988)·Zbl 0653.90036号 ·doi:10.1016/0377-2217(88)90333-5
[6] Falkner,J.K.,Schmidt-Thieme,L.学习通过共同关注解决带时间窗的车辆路径问题。CoRR abs/2006.09100(2020)
[7] 谷歌公司OR-Tools(2016)
[8] Helsgaun,K.有限旅行推销员和车辆路径问题lin-kernighan-Helsgaun-tsp求解器的扩展。罗斯基勒:罗斯基勒大学,第24-50页(2017年)
[9] Jamal,J.,Shobaki,G.,Papapanagiotou,V.,Gambardela,L.M.,Montemanni,R.:使用分支和定界解决顺序排序问题。2017年IEEE计算智能研讨会系列(SSCI),第1-9页(2017年)
[10] Karan,M.,Skorin-Kapov,N.:序列排序问题的分枝定界算法。2011年《第34届MIPRO国际公约汇编》,第452-457页。IEEE(2011)
[11] Kool,W.,Hoof,H.,Welling,M.:注意,学会解决路线问题!。参加:学习代表国际会议(2019年)。https://openreview.net/forum?id=ByxBFsRqYm
[12] 李,J。;Xin,L。;曹,Z。;A.Lim。;Song,W。;Zhang,J.,通过深度强化学习解决取货和发货问题的异构关注,IEEE Trans。因特尔。运输。系统。,23, 3, 2306-2315 (2022) ·doi:10.1109/TITS.2021.3056120
[13] Lu,H.,Zhang,X.,Yang,S.:一种求解车辆路径问题的基于学习的迭代方法。参加:国际学习代表大会(2020年)
[14] Ma,Q.,Ge,S.,He,D.,Thaker,D.,Drori,I.:通过图指针网络和分层强化学习进行组合优化(2019)
[15] 莫贾纳,M。;蒙特曼,R。;Di Caro,G。;甘巴德拉,LM;Luangpaiboon,P.,《序列排序问题的分支定界方法》,讲义管理。科学。,4, 1, 266-273 (2012)
[16] Thyssens,D.、Falkner,J.K.、Schmidt-Thieme,L.:求解有限机队规模CVRP的监督置换不变网络。CoRR.abs/2201.01529(2022)
[17] Shobaki,G。;Jamal,J.,序列排序问题的精确算法及其在编译器开关能量最小化中的应用,计算。最佳方案。申请。,61, 2, 343-372 (2015) ·Zbl 1325.90078号 ·doi:10.1007/s10589-015-9725-9
[18] 瓦斯瓦尼(Vaswani,A.)等人:注意力是你所需要的。收录于:Guyon,I.、Luxburg,U.V.、Bengio,S.、Wallach,H.、Fergus,R.、Vishwanathan,S.和Garnett,R.(编辑),《神经信息处理系统进展》,第30卷,第5998-6008页(2017)
[19] Vinyals,O.,Fortunato,M.,Jaitly,N.:指针网络。收录于:Cortes,C.,Lawrence,N.,Lee,D.,Sugiyama,M.,Garnett,R.,(编辑),《神经信息处理系统进展》,第28卷,第2692-2700页(2015)
[20] 威廉姆斯,RJ,连接强化学习的简单统计梯度允许算法,马赫。学习。,8, 3-4, 229-256 (1992) ·Zbl 0772.68076号
[21] Xin,L。;Song,W。;曹,Z。;Zhang,J.,解决车辆路径问题的带嵌入瞥见的多解码器注意模型,Proc。AAAI Conf.Artif.公司。整数。,35, 13, 12042-12049 (2021)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。