×

基于深度强化学习的超神经网络用于不确定性组合优化。 (英语) Zbl 1495.90168号

摘要:在过去十年中,计算智能和运筹学领域取得了长足进展。然而,大多数这些优化方法都是针对确定性公式化问题开发的,这些问题的参数通常在解决问题之前假设为完全可预测。不幸的是,在实践中,这种强烈的假设与许多现实问题的现实相矛盾,这些问题受到不同程度的不确定性的影响。由于过度优化,从这些确定性方法中得出的解决方案在执行过程中可能会迅速恶化,而没有明确考虑不确定性。为了弥补这一研究空白,本文提出了一种基于深度强化学习的超神经框架。提出的方法通过一个强大的数据驱动启发式选择模块来增强现有的超神经系统,该模块以参数控制的低级启发式的深度强化学习的形式,在优化各种问题的同时,大大改进了它们对不确定性的处理。在两个组合优化问题上对所提出的超神经方法的性能和实用性进行了评估:一个实际的服务时间不确定的集装箱码头卡车路径问题和著名的在线二维条形包装问题。实验结果表明,与现有的求解方法相比,该方法具有更好的性能。最后,与传统的深度强化学习方法相比,所提出的深度强化学习超启发式方法的可解释性有所提高。

MSC公司:

90C27型 组合优化
90B06型 运输、物流和供应链管理
90 C59 数学规划中的近似方法和启发式

软件:

超启发式
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾哈迈德·L。;芒福德,C。;Kheiri,A.,使用选择超神经理论解决城市公交路线设计问题,《欧洲运筹学杂志》,274,2,545-559(2019)·Zbl 1404.90025号
[2] Bai,R。;Blazewicz,J。;伯克,E.K。;Kendall,G。;McCollum,B.,用于灵活决策支持的模拟退火超启发式方法,4OR-A《运筹学季刊》,10,1,43-66(2012)·Zbl 1241.90077号
[3] 伯克,E.K。;Gendreau,M。;海德,M。;Kendall,G。;奥乔亚,G。;Øzcan,E.,《超神经科学:现状调查》,《运筹学学会杂志》,第64、12、1695-1724页(2013年)
[4] 伯克,E.K。;海德,M。;Kendall,G。;奥乔亚,G。;厄兹坎,E。;Woodward,J.R.,《超神经方法的分类》,《元启发式手册》,449-468(2010),施普林格出版社
[5] 伯克,E.K。;Kendall,G。;Whitwell,G.,《正交剪枝问题的一种新布局启发式算法》,运筹学,52,4,655-671(2004)·Zbl 1165.90690号
[6] 伯克,E.K。;McCollum,B。;梅赛尔,A。;彼得罗维奇,S。;Qu,R.,教育时间表问题的基于图形的超神经主义者,《欧洲运筹学杂志》,176,1177-192(2007)·Zbl 1137.90602号
[7] 陈,J。;白,R。;Dong,H。;曲,R。;Kendall,G.,海运集装箱码头的动态卡车调度问题,2016年IEEE调度和网络设计计算智能研讨会(CISND2017),2016年12月6-9日,希腊雅典(2016)
[8] 陈,X。;Bai,R。;曲,R。;Dong,H。;Chen,J.,用于实际动态海港集装箱码头卡车调度的数据驱动遗传规划启发式算法,2020年IEEE进化计算大会(CEC),1-8(2020)
[9] 陈,X。;Tian,Y.,《学习执行组合优化的局部重写》,《神经信息处理系统的进展》,32,6281-6292(2019)
[10] 陈,X。;张,H。;吴,C。;毛,S。;纪毅。;Bennis,M.,通过深度强化学习优化虚拟边缘计算系统中的计算卸载性能,IEEE物联网杂志,6,3,4005-4018(2018)
[11] Choong,S.S。;Wong,L.-P。;Lim,C.P.,针对旅行推销员问题的带有改进选择函数的人工蜂群算法,Swarm and Evolutionary Computation,44,622-635(2019)
[12] 考林,P。;Kendall,G。;Soubeiga,E.,《安排销售峰会的超启发式方法》,自动时间表实践与理论国际会议,176-190(2000),斯普林格·Zbl 0982.68516号
[13] Drake,J.H。;Kheiri,A。;厄兹坎,E。;Burke,E.K.,《选择超神经科学的最新进展》,《欧洲运筹学杂志》,285,2,405-428(2020)·Zbl 1441.90183号
[14] 费希尔·R·D。;汤普森,G.L.,本地车间调度规则的概率学习组合,工业调度,225-251(1963)
[15] J.C.戈麦斯。;Terashima-Marín,H.,解决双目标二维装箱问题的进化超神经系统,遗传编程和进化机器,19,1-2,151-181(2018)
[16] 韩,X。;岩马,K。;Ye,D。;Zhang,G.,《近似条形包装:重新审视,信息与计算》,249,110-120(2016)·Zbl 1345.68275号
[17] Kheiri,A。;Keedwell,E.,超神经科学中启发式选择问题的隐马尔可夫模型方法及高中时间表问题的案例研究,进化计算,25,3,473-501(2017)
[18] Lin,L.-J.,使用神经网络的机器人强化学习,技术报告(1993),卡内基梅隆大学匹兹堡PA计算机科学学院
[19] 麦克拉克伦,J。;梅,Y。;布兰克,J。;Zhang,M.,针对不确定电容约束电弧布线问题的遗传编程超神经网络与车辆协作,进化计算,28,4,563-593(2020),麻省理工学院出版社,罗杰斯街,剑桥,马萨诸塞州02142-1209,美国
[20] 梅,Y。;Tang,K。;Yao,X.,不确定环境中的电容电弧布线问题,IEEE进化计算大会,1-8(2010),IEEE
[21] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Graves,A.、Antonoglou,I.和Wierstra,D.等人(2013年)。玩Atari游戏进行深度强化学习。arXiv预打印arXiv:1312.5602。
[22] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,A.A。;Veness,J。;Bellemare,M.G.,《通过深度强化学习实现人类层面的控制》,《自然》,518,7540,529-533(2015)
[23] 皮莱,N。;Qu,R.,《超神经科学:理论与应用》(2018),施普林格出版社
[24] Pillay,N.和Qu,R.(2018b)。选择建设性超神经科学,第7-16页。10.1007/978-3-319-96514-7_2
[25] 皮莱,N。;Qu,R.,超神经科学的严格性能分析(2021),施普林格自然计算系列
[26] 曲,R。;Pham,N。;Bai,R。;Kendall,G.,《考试时间表估计分布算法中的混合启发式》,应用智能,42,4,679-693(2015)
[27] Rahimian,E。;阿卡图拉,K。;Levine,J.,解决护士排班问题的混合整数规划和可变邻域搜索算法,《欧洲运筹学杂志》,258,2441-423(2017)·Zbl 1394.90300号
[28] 西尔弗·D。;黄,A。;Maddison,C.J。;A.盖兹。;Sifre,L。;Van Den Driessche,G.,《掌握深度神经网络和树搜索的游戏》,《自然》,529,7587,484-489(2016)
[29] Soghier,A。;Qu,R.,《考试时间表中分配时间段和房间的启发式自适应选择》,应用智能,39,2,438-450(2013)
[30] Soria-Alcaraz,J.A。;奥乔亚,G。;斯旺,J。;卡皮奥,M。;Puga,H。;Burke,E.K.,《针对课程时间表问题的有效学习超神经科学》,《欧洲运筹学杂志》,238,1,77-86(2014)·Zbl 1338.90183号
[31] Van Hasselt,H。;A.盖兹。;Silver,D.,《双Q学习深度强化学习》,第三十届AAAI人工智能会议(2016年)
[32] Zamli,K.Z。;Alkazemi,B.Y。;Kendall,G.,t路测试套件生成的禁忌搜索超启发式策略,应用软计算,44,57-74(2016)
[33] 郑庚。;张,F。;郑,Z。;Xiang,Y。;袁,N.J。;Xie,X.,DRN:新闻推荐的深度强化学习框架,《2018年全球网络会议论文集》,167-176(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。