×

通过一种新的深度强化学习方法解决非交错流水车间调度问题。 (英语) Zbl 07706530号

摘要:研究了无交叉流车间调度问题。我们将其建模为一个马尔可夫决策过程,为强化学习(RL)算法的工作创造了一个巨大的舞台。虽然具有函数近似的RL方法生成了大量高度链接状态序列,但很少有研究检查状态序列之间的联系,而只是改变了它们的顺序。为此,本文提出了一种新的深度强化学习算法LSTM-TD(0)来解决NPFS问题。具体来说,我们设计了15个状态特征来表示每个调度点的生产状态,并设计了14个动作来选择给定机器上的未处理操作。本研究应用长短期记忆(LSTM)网络捕捉基于RL的调度方法中状态序列的内在联系。此外,我们使用一步时间差分(TD(0))算法对LSTM模型进行了改进,以根据状态值公平地选择每个动作,避免了Q学习中频繁高估动作值。提出的LSTM-TD(0)使用两个LSTM网络进行训练,并通过重新设计奖励值来增强。使用一组不同规模的著名基准问题,在简单启发式规则、元启发式规则和一般DRL方法以及LSTM-TD(0)之间进行了一系列比较实验。比较结果证实了LSTM-TD(0)相对于其竞争对手的优势和普遍性。可伸缩性测试表明,我们的方法可以推广到不同大小的实例,而无需再培训或知识转移。

MSC公司:

900亿 运筹学与管理科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Averbakh,I。;Berman,O.,《m机流程车间的简单启发式及其在路由调度问题中的应用》,Oper。决议,47,1,165-170(1999)·Zbl 1046.90027号
[2] Baker,K.R.,《排序和调度导论》(1974),John Wiley&Sons
[3] Benavides,A.J。;Ritt,M.,两种简单有效的启发式算法,用于最小化非置换流车间的最大完工时间,计算。操作。决议,66,160-169(2016)·Zbl 1349.90318号
[4] Boukef,H。;Benrejeb,M。;Borne,P.,一种用于流程车间调度问题的拟议遗传算法编码,国际计算杂志。Commun公司。控制,2,3,229-240(2007)
[5] 坎贝尔,H.G。;杜德克,R.A。;Smith,M.L.,n作业,M机器排序问题的启发式算法,管理。科学。,16、10、B-630(1970年)·Zbl 0194.50504号
[6] Chandra,P。;梅塔,P。;Tirupati,D.,带提前和延迟惩罚的置换流水车间调度,《国际生产研究杂志》,47,20,5591-5610(2009)·Zbl 1198.90172号
[7] 陈,R。;Yang,B。;李,S。;Wang,S.,基于强化学习的自学习遗传算法,用于柔性车间调度问题,计算。Ind.Eng.,149,第106778条pp.(2020)
[8] Demirkol,E。;梅塔,S。;Uzsoy,R.,《车间调度问题基准》,欧洲期刊。决议,109,1,137-141(1998)·Zbl 0951.90022号
[9] 费尔南德斯·维亚加斯,V。;Framinan,J.M.,一个最优秀的迭代贪婪算法,用于求解具有总工期目标的置换flowshop调度问题,Compute。操作。第112号决议,第104767条,pp.(2019)·Zbl 1458.90290号
[10] 费尔南德斯·维亚加斯,V。;Ruiz,R。;Framinan,J.M.,《置换流程的近似方法以最大限度地缩短生产时间的新观点:最新技术和计算评估》,欧洲运营商杂志。第257、3707-721号决议(2017年)·Zbl 1394.90271号
[11] 格雷厄姆,R.L。;劳勒,E.L。;Lenstra,J.K。;Kan,A.R.,《确定性排序和调度中的优化和近似:一项调查》(《离散数学年鉴》,第5卷(1979年),爱思唯尔出版社),287-326·Zbl 0411.90044号
[12] Han,W。;郭,F。;Su,X.,混合流程车间调度问题的强化学习方法,算法,12,11,222(2019)
[13] Hochreiter,S。;Schmidhuber,J.,长短期记忆,神经计算。,9, 8, 1735-1780 (1997)
[14] Konda,V.R。;Tsitsiklis,J.N.,演员关键算法,(神经信息处理系统进展(2000)),1008-1014
[15] Lillicrap,T.P。;亨特·J·J。;Pritzel,A。;海斯,N。;埃雷斯,T。;塔萨,Y。;西尔弗·D。;Wierstra,D.,《深度强化学习的持续控制》(2015),arXiv预印本arXiv:1509.02971
[16] Luo,S.,通过深度强化学习实现新作业插入的柔性车间动态调度,应用。软计算。,91,第106208条pp.(2020)
[17] 马里纳基斯,Y。;Marinaki,M.,置换流水车间调度问题的扩展邻域拓扑粒子群优化,软计算。,17, 7, 1159-1173 (2013)
[18] 麦克马洪,G。;Burton,P.,《分支定界法的流程车间调度》,Oper。第15、3、473-481号决议(1967年)
[19] Mnih,V。;Badia,A.P。;米尔扎,M。;格雷夫斯,A。;Lillicrap,T。;哈雷,T。;西尔弗·D。;Kavukcuoglu,K.,深度强化学习的异步方法,(机器学习国际会议(2016),PMLR),1928-1937
[20] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;格雷夫斯,A。;安东尼奥卢,I。;Wierstra,D。;Riedmiller,M.,《用深度强化学习演奏atari》(2013),arXiv预印本arXiv:1312.5602
[21] 姆尼赫,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,A.A。;Veness,J。;Bellemare,M.G。;格雷夫斯,A。;里德米勒,M。;Fidjeland,A.K。;Ostrovski,G.,《通过深度强化学习实现人类层面的控制》,《自然》,518,7540,529-533(2015)
[22] 纳瓦兹,M。;Enscore Jr.,E.E。;Ham,I.,m机器n作业流程车间排序问题的启发式算法,Omega,11,1,91-95(1983)
[23] 潘,R。;Dong,X。;Han,S.,用深度强化学习解决置换flowshop问题,(2020年预测与健康管理会议(PHM-Besan Jon)(2020),IEEE),349-353
[24] Ren,J。;Ye,C。;Yang,F.,基于长短期记忆和策略梯度算法的JSPS新解决方案,国际期刊模拟。型号。,19, 1, 157-168 (2020)
[25] Ren,J。;Ye,C。;Yang,F.,用强化学习算法解决流程车间调度问题,该算法利用神经网络推广了值函数,Alex。《工程师杂志》,60,3,2787-2800(2021)
[26] 雷纳,Y.C.F。;Cáceres,A.P。;Jiménez,Y.M。;Reyes,Y.T.,流动车间调度问题排列的强化学习方法的改进,Rev.IbÉRica Sist。特科诺。Inf.,E18,257-270(2019)
[27] Röck,H。;Schmidt,G.,《车间调度中的机器聚合启发式》(1982),比伯大学。d.技术大学。
[28] Ronconi,D.P。;Birgin,E.G.,最小化总提前和延误的flowshop调度问题的混合整数规划模型,(Just-in-Time Systems(2012),Springer),91-105·Zbl 1355.90028号
[29] 罗西,A。;Lanzetta,M.,《非置换流水车间调度的原生元启发式》,J.Intell。制造,25,6,1221-1233(2014)
[30] 罗西特,医学博士。;托梅,F。;Frutos,M.,《非交错流车间调度问题:文献综述》,Omega,77,143-153(2018)
[31] Schaul,T。;Quan,J。;安东尼奥卢,I。;Silver,D.,《优先体验重播》(2015),arXiv预印本arXiv:1511.05952
[32] 舒尔曼,J。;沃尔斯基,F。;Dhariwal,P。;Radford,A。;Klimov,O.,近似策略优化算法(2017),arXiv预打印arXiv:1707.06347
[33] Stefan,P.,基于强化学习算法的流程车间调度,生产系统。Inf.Eng.,1,1,83-90(2003)
[34] Sundermeyer,M.,Schlüter,R.,Ney,H.,2012年。语言建模的LSTM神经网络。参加:国际言语交际协会第十三届年会。
[35] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(2018),麻省理工学院出版社·Zbl 1407.68009号
[36] Van Hasselt,H.,Guez,A.,Silver,D.,2016年。双q学习深度强化学习。摘自:《AAAI人工智能会议记录》,第30卷,第1期。
[37] 弗吉尼亚州。;Sierra,D.M。;杜兰,S.E。;兰巴尔,E.P。;Hernández-Palma,H。;文图拉,J.M。;Pichon,A.R。;Torres,L.J.J.,通过混合遗传算法优化制造公司的流水车间调度,(智能计算、信息和控制系统国际会议(2019),Springer),20-29
[38] Wang,Y。;高,S。;王,S。;Zimmermann,R.,《考虑雾制造实际约束的自适应多目标多任务服务组合方法》,IEEE Trans。Ind.通知。(2021)
[39] 王,Z。;Schaul,T。;海塞尔,M。;哈塞尔特,H。;Lanctot,M。;Freitas,N.,《深度强化学习的决斗网络架构》,(机器学习国际会议(2016),PMLR),1995-2003年
[40] Wang,Y。;王,S。;Kang,L。;Wang,S.,当实际云制造中出现服务异常时,一种有效的动态服务组合重新配置方法,Robot。计算-集成。手稿,71,第102143条,第(2021)页
[41] Williams,R.J.,连接强化学习的简单统计梯度允许算法,马赫。学习。,8, 3, 229-256 (1992) ·Zbl 0772.68076号
[42] 肖,P。;张,C。;孟,L。;Hong,H。;Dai,W.,基于深度强化学习的非交错流水车间调度问题研究,Jisuanji Jicheng Zhizao Xitong/Comput。集成。制造系统。CIMS(2019)
[43] 徐,J。;周,X.,一类具有双随机系数的多目标期望值决策模型及其在流水车间调度问题中的应用,Inform。科学。,179, 17, 2997-3017 (2009) ·Zbl 1170.90428号
[44] Yang,S。;Xu,Z.,通过深度强化学习实现动态作业到达的置换流水车间智能调度,(2021 IEEE第五届高级信息技术,电子与自动化控制会议,第5卷)。2021 IEEE第五届先进信息技术、电子和自动化控制会议,第5卷,IAEAC(2021),IEEE),2672-2677
[45] Yang,S。;徐,Z。;Wang,J.,通过深度强化学习实现动态置换流程车间调度的智能决策,Sensors,21,3,1019(2021)
[46] W.Yankai。;西石龙。;Dong,L。;春风,S。;Bo,Y.,考虑设备动态重构过程的混合流水车间调度问题的改进多目标鲸鱼优化算法,专家系统。申请。,174,第114793条pp.(2021)
[47] Ying,K.-C.,通过有效的迭代贪婪启发式解决非重复流水车间调度问题,Int.J.Adv.Manuf.Technol。,38, 3-4, 348 (2008)
[48] Ying,K.-C。;Lin,S.-W.,非置换流水车间调度问题的多神经期望蚁群系统启发式算法,国际先进制造技术杂志。,33, 7-8, 793-802 (2007)
[49] 张,Z。;Wang,W。;钟,S。;Hu,K.,Flow shop scheduling with reinforcement learning,亚洲太平洋。《运营杂志》。决议,30,05,第1350014条pp.(2013)·兹比尔1278.90179
[50] 张大勇。;Ye,C.-M.,置换流水车间调度的强化学习算法,以最小化完工时间,计算。系统。申请。,28, 12, 195-199 (2019)
[51] 张,Z。;郑磊,基于强化学习的制造系统调度,49-54(2016),北京科学出版社
[52] 朱,J。;Wang,H。;Zhang,T.,带最大完工时间最小化的柔性flowshop调度问题的深度强化学习方法,(2020 IEEE第九届数据驱动控制和学习系统会议,2020 IEEE第一届数据驱动的控制和学习系统会议,DDCLS(2020),IEEE),1220-1225
[53] Ziaee,M.,《解决柔性车间调度问题的启发式算法》,《国际先进制造技术》。,71, 1-4, 519-528 (2014)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。