×

有时间窗定向问题的强化学习方法。 (英语) 兹比尔1511.90345

摘要:带时间窗的定向问题(OPTW)是一个组合优化问题,其目标是最大化从不同访问位置收集的总分数。最近,神经网络模型在组合优化中的应用在处理类似问题(如旅行推销员问题)方面显示出了良好的结果。根据可用数据,神经网络允许使用强化学习或监督学习的学习解决方案。学习阶段结束后,可以对其进行概括和快速微调,以进一步提高性能和个性化。优点显而易见,因为对于实际应用程序,解决方案质量、个性化和执行时间都是应该考虑的重要因素。
本研究探讨了使用强化学习训练的指针网络模型来解决OPTW问题。我们提出了一种改进的体系结构,利用指针网络更好地解决与动态时间相关约束相关的问题。在其各种应用中,OPTW可用于建模旅游出行设计问题(TTDP)。我们将TTDP问题牢记在心,通过抽样变量来训练指针网络,这些变量可以在访问特定区域的游客中发生变化:起始位置、起始时间、可用时间以及每个兴趣点的得分。一旦对模型区域进行了训练,它就可以使用波束搜索为特定的游客推断出解决方案。我们基于几个现有的基准OPTW实例对我们的方法进行评估。我们的研究表明,该算法适用于访问每个地区的不同游客,并且在实际时间内计算解时,其性能通常优于最常用的启发式算法。

MSC公司:

90C27型 组合优化
90B06型 运输、物流和供应链管理
90 C59 数学规划中的逼近方法和启发式方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿马鲁什,Y。;吉巴杰,R.N。;Chaalal,E。;Moukrim,A.,《带时间窗的团队定向问题的具有最优分割和自适应内存的有效邻域搜索》,计算。操作。第123号决议,第105039条pp.(2020)·兹比尔1458.90531
[2] Bahdanau,D.、Cho,K.和Bengio,Y.(2015)。联合学习对齐和翻译的神经机器翻译。第三届国际学习代表大会,ICLR 2015,会议记录,abs/1409.0473。
[3] Bayliss,C.,基于机器学习的城市路线问题模拟优化,应用。软计算。,105 (2021)
[4] 贝利斯,C。;Juan,A.A。;柯里,C.S。;Panadero,J.,无人机运动约束下团队定向运动问题的学习启发式方法,应用。软计算。,92,第106280条pp.(2020)
[5] 贝洛,I。;Pham,H。;Le,Q.V.公司。;诺鲁齐,M。;Bengio,S.,《强化学习的神经组合优化》,(第五届学习表征国际会议论文集(2017))
[6] Y.本吉奥。;Lodi,A。;Prouvost,A.,《组合优化的机器学习:方法论巡演》,欧洲期刊Oper。决议(2020年)
[7] Browne,C.B。;鲍利,E。;怀特豪斯,D。;Lucas,S.M。;Cowling,P.I。;罗尔夫沙根,P。;Tarede,S。;佩雷斯,D。;萨莫特拉基斯,S。;Colton,S.,《蒙特卡罗树搜索方法调查》,IEEE Trans。计算。智力。人工智能游戏,4,1,1-43(2012)
[8] 周,X。;甘巴德拉,L.M。;Montemanni,R.,概率定向问题的禁忌搜索算法,计算。操作。第126号决议,第105107条pp.(2021)·Zbl 1510.90220号
[9] Dai,H.、Khalil,E.B.、Zhang,Y.、Dilkina,B.和Song,L.(2017)。学习图上的组合优化算法。神经信息处理系统进展,2017年12月:6349-6359。
[10] Deudon,M。;Cournut,P。;鳄鱼,A。;阿杜利亚萨克,Y。;卢梭,L.-M.,《通过政策梯度为TSP学习启发式》,(第十五届约束编程、人工智能和运筹学集成国际会议论文集(2018)),170-181·Zbl 1508.68285号
[11] Falkner,J.K.和Schmidt-Thieme,L.(2020年)。学习通过共同关注解决有时间窗的车辆路径问题。arXiv:2006.091005年。
[12] 新泽西州弗里曼。;Keskin,B.B。;Capar,I.,《具有邻近性和时间互动的吸引性定向运动问题》,欧洲期刊Oper。第266、1、354-370号决议(2018年)·兹比尔1403.90638
[13] 加瓦拉斯,D。;康斯坦托普洛斯,C。;Mastakas,K。;Pantziou,G.,关于解决旅游行程设计问题的算法方法的调查,启发式杂志,20,39291-328(2014)
[14] 加瓦拉斯,D。;康斯坦托普洛斯,C。;Mastakas,K。;Pantziou,G.,《带时间窗口的团队定向问题的高效集群启发式》,亚太期刊。第36、01、1-44号决议(2019年)
[15] 格洛洛特,X。;Bengio,Y.,《理解训练深度前馈神经网络的困难》,J.Mach。学习。第9号决议,第249-256页(2010年)
[16] 顾S。;Hao,T.,基于指针网络的0-1背包问题深度学习算法,(2018年第十届高级计算智能国际会议(ICACI)(2018)),473-477
[17] 顾S。;Yang,Y.,一种基于指针网络的深度学习算法,用于Max-Cut问题。神经信息处理。ICONIP 2018,Lect。注释计算。科学。,11301, 238-248 (2018)
[18] Gunawan,A。;Lau,H.C。;Vansteenwegen,P。;Lu,K.,《带时间窗的团队定向问题的良好调整算法》,J.Oper。Res.Soc.,68,8,861-876(2017)
[19] Gunawan,A。;刘红,C。;Vansteenwegen,P.,《定向运动问题:最新变体、解决方法和应用的调查》,欧洲期刊Oper。第255、2、315-332号决议(2016年)·兹比尔1346.90703
[20] Hapsari,I。;苏尔扬达里,I。;Komarudin,K.,使用调整迭代局部搜索解决带时间窗的多目标团队定向问题,J.Ind.Eng.Int.,15,4,679-693(2019)
[21] Hochreiter,S。;Schmidhuber,J.,长短期记忆,神经计算。,9, 8, 1735-1780 (1997)
[22] 卡拉布卢特,K。;Tasgetiren,M.F.,《带时间窗的团队定向问题的进化策略方法》,计算。工业工程,139,第106109条pp.(2020)
[23] Kingma,D.P.和Ba,J.(2015)。亚当:一种随机优化方法。国际学习代表大会(ICLR),abs/1412.6980。
[24] Kool,W.、Van Hoof,H.和Welling,M.(2019a)。注意,学会解决路由问题!第七届国际学习代表大会,ICLR 2019,第1-25页。
[25] Kool,W.、Van Hoof,H.和Welling,M.(2019b)。购买4个加固样品,免费获取基线!深度强化学习符合结构化预测,ICLR的DeepRLStructPred2019年研讨会,第1-14页。
[26] Lin,B.、Ghaddar,B.和Nathwani,J.(2020年)。带时间窗的电动汽车路径问题的深度强化学习。arXiv:2010.020685。
[27] 纳扎里,M。;奥鲁伊卢伊,A。;斯奈德,L.V。;Takáć,M.,解决车辆路径问题的深度强化学习,神经信息处理系统(NIPS),9839-9849(2018)
[28] 鲁兹贝赫,I。;赫恩,J.W。;Pahlevani,D.,《带时间窗和同步约束的定向运动问题的解决方法》,Heliyon,6,6,Article e04202 pp.(2020)
[29] Saeedvand,S。;阿加达西,H.S。;Baltes,J.,救援应用时间窗团队定向问题的新型混合算法,应用。软计算。,第96条,第106700页(2020年)
[30] 施密德,V。;Ehmke,J.F.,针对团队定向越野问题的有效大型邻域搜索,《计算》。物流。ICCL法律。注释计算。科学。,10572, 3-18 (2017) ·兹比尔1378.90029
[31] Vansteenwegen,P。;Gunawan,A.,《带利润的车辆路线问题的定向问题、模型和算法》(2019年),Springer,欧元高级版
[32] Vansteenwegen,P。;西苏弗里奥。;Oudheusden,D.V.,《定向运动问题:调查》,欧洲期刊Oper。第209、1、1-10号决议(2011年)·Zbl 1205.90253号
[33] Vansteenwegen,P。;苏夫廖,W。;Vanden Berghe,G。;Van Oudheusden,D.,用时间窗口迭代本地搜索团队定向问题,Compute。操作。第36、12、3281-3290号决议(2009年)·Zbl 1175.90239号
[34] 瓦斯瓦尼,A。;北沙泽尔。;北卡罗来纳州帕尔马。;Uszkoreit,J。;Jones,L。;A.N.戈麦斯。;凯撒,L。;Polosukhin,I.,《注意力是你所需要的一切》,(NIPS’17:第31届神经信息处理系统国际会议(2017)会议记录),6000-6010
[35] Velićković,P。;卡萨诺娃,A。;李欧,P。;库库鲁尔,G。;罗梅罗,A。;Bengio,Y.,Graph attention networks,(第六届学习表征国际会议,2018年ICLR会议记录(2018年)),1-12
[36] Vinyals,O.、Fortunato,M.和Jaitly,N.(2015)。指针网络。Cortes,C.、Lawrence,N.D.、Lee,D.D.、Sugiyama,M.和Garnett,R.编辑,《神经信息处理系统进展》28,第2692-2700页。柯兰联合公司。
[37] Williams,R.J.,连接强化学习的简单统计梯度允许算法,机器学习,8,3,229-256(1992)·Zbl 0772.68076号
[38] Yahiaoui,A.-E。;Moukrim,A。;Serairi,M.,集群团队定向问题,计算。操作。决议,111,386-399(2019)·Zbl 1458.90153号
[39] 于清。;方,K。;朱,N。;Ma,S.,《服务时间相关利润的定向运动问题的数学方法》,Eur.J.Oper。第273、2488-503号决议(2019年)·Zbl 1403.90660号
[40] Yu,V.F。;Jewpanya,P。;林,S.-W。;Redi,A.P.,《团队定向问题与时间窗口和时间相关分数》,计算。工业工程,127,213-224(2019)
[41] Yu,V.F。;雷迪·A·P。;Jewpanya,P。;Gunawan,A.,带时间窗和部分分数的团队定向问题的选择性离散粒子群优化,计算。Ind.Eng.,138,第106084条,第(2019)页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。