×

库存控制的深度强化学习:路线图。 (英语) Zbl 1490.90012号

摘要:深度强化学习(DRL)在顺序决策方面显示出巨大的潜力,包括库存控制的早期发展。然而,设计DRL算法所带来的丰富选择,再加上调整和评估每个选择所需的大量计算工作,可能会妨碍它们在实践中的应用。本文描述了DRL算法的关键设计选择,以促进其在库存控制中的实现。我们还阐明了未来可能的研究途径,这些研究途径可能会提升当前库存控制日间行车灯应用的最新水平,并通过利用和改进库存研究中的结构政策见解来扩大其范围。我们的讨论和路线图也可能会促进运营管理其他领域的未来研究。

MSC公司:

90磅05 库存、储存、水库
68T05型 人工智能中的学习和自适应系统
90-02 与运筹学和数学规划有关的研究博览会(专著、调查文章)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 贝克,B。;Kanitscheider,I。;马尔科夫,T。;Wu,Y。;鲍威尔,G。;McGrew,B.,多智能体自动库的紧急工具使用,第八届学习表征国际会议论文集(ICLR)(2020)
[2] Bellman,R.,《动态规划理论》,美国数学学会公报,60,6,503-515(1954)·Zbl 0057.1253号
[3] Bengio,Y.,《基于梯度的深层架构培训实用建议》,《神经网络:行业技巧》,437-478(2012),施普林格出版社
[4] Bergstra,J。;Yamins,D。;Cox,D.,《建立模型搜索科学:视觉架构数百维超参数优化》,第30届机器学习国际会议论文集,115-123(2013)
[5] Bertsekas,D.P.,《动态规划:确定性和随机模型》(1987),新泽西州普伦蒂斯·霍尔:普伦蒂塞·霍尔恩格尔伍德克利夫斯·Zbl 0649.93001号
[6] Bertsekas,D.P.,强化学习和最优控制(2019),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州
[7] Bertsekas,D.P。;Tsitsiklis,J.N.,神经动力学编程(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州·Zbl 0924.68163号
[8] Bertsimas,D。;Thiele,A.,库存理论的鲁棒优化方法,运筹学,54,1150-168(2006)·Zbl 1167.90314号
[9] 布拉沃,F。;Shaposhnik,Y.,《采矿优化政策:模型分析的模式识别方法》,《信息优化杂志》,第2期,第3期,第145-166页(2020年)
[10] Chen,W。;Yang,H.,基于二次近似的启发式算法,用于一般提前期和供应能力不确定性的双重采购问题,IISE Transactions,51,9,943-956(2019)
[11] De Moor,B.J.、Gijsbrechts,J.和Boute,R.N.(2021年)。奖励塑造,以提高库存管理中深度强化学习的绩效。SSRN提供:https://doi.org/10.2139/ssrn.3804655。
[12] Dulac-Arnold,G.、Mankowitz,D.和Hester,T.(2019年)。现实世界强化学习的挑战。arXiv:1904.12901年
[13] 弗朗索瓦·拉维特,V。;亨德森,P。;伊斯兰共和国。;Bellemare,M.G。;Pineau,J.,深度强化学习简介,机器学习的基础和趋势,11,3-4,219-354(2018)
[14] Garychl(2018)。强化学习在现实世界中的应用。2021年4月13日检索自https://towardsdatascience.com/applications-of-reinformance-learning-in-real-world1a94955bcd12。
[15] Gershgorn,D.(2018)。人工智能只有一个突破。2021年4月13日检索自https://qz.com/1419346/ai-has-had-just-one-breakthrough-says-kai-fu-lee。
[16] Gijsbrechts,J.、Boute,R.、Zhang,D.和Van Mieghem,J.(2019年)。深度强化学习可以改善库存管理吗?在双重采购、销售损失和多切尔西问题上的表现。SSRN提供:https://doi.org/10.2139/ssrn.3302881。
[17] 吉尔平,L.H。;鲍博士。;袁伯忠。;Bajwa,A。;斯佩克特,M。;Kagal,L.,解释:机器学习的可解释性概述,第五届ieee数据科学和高级分析国际会议(DSAA)论文集,80-89(2018)
[18] Goldberg,D.A。;Katz-Rogozhnikov,D.A。;Lu,Y。;夏尔马,M。;Squillante,M.S.,大提前期损失销售库存模型恒阶策略的渐近最优性,运筹学数学,41,3,745-1160(2016)·Zbl 1342.90006号
[19] 古德费罗,I.J。;Pouget-Abadie,J。;米尔扎,M。;徐,B。;Warde Farley博士。;Ozair,S.,生成对抗网,第27届神经信息处理系统国际会议论文集,2672-2680(2014)
[20] 海塞尔,M。;Modayil,J。;Van Hasselt,H。;Schaul,T。;奥斯特罗夫斯基,G。;Dabney,W.,Rainbow:结合深度强化学习的改进,第32届aaai人工智能会议论文集,3215-3222(2018)
[21] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络,2,5,359-366(1989)·Zbl 1383.92015年
[22] 华,Z。;Yu,Y。;张伟。;Xu,X.,具有一般提前期的双源系统最优策略的结构性质,IIE Transactions,47,8,841-850(2015)
[23] 卡卡德,S。;Langford,J.,《近似最优近似强化学习》,第19届机器学习国际会议论文集,267-274(2002)
[24] Kakade,S.M.,《自然政策梯度》,《神经信息处理系统的进展》,第14期,第1531-1538页(2001年)
[25] Karlin,S。;Scarf,H.,带时滞的Arrow-Harris-Marschak型库存模型,库存和生产数学理论研究,155-178)(1958),斯坦福大学出版社
[26] Kaynov,I.(2021)。非对称单仓库多零售商库存管理的深度强化学习。网址:https://research.tue.nl/en/studentTheses/deep-rinformation-learning-for-asymmetric-on-warehouse-multi-re。
[27] 金玛,D.P。;Ba,J.,Adam:随机优化方法,第三届国际学习表征会议论文集(ICLR)(2015)
[28] Kranenburg,A。;Van Houtum,G.-J.,《备件网络的新型部分池结构》,《欧洲运筹学杂志》,199,3908-921(2009)·Zbl 1176.90026号
[29] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,用深度卷积神经网络进行Imagenet分类,神经信息处理系统进展,251097-1105(2012)
[30] Levine,S.、Kumar,A.、Tucker,G.和Fu,J.(2020年)。离线强化学习:关于开放性问题的教程、复习和观点。arXiv:2005.01643号
[31] Lu,Y。;Song,J.-S.,组装到订单系统中基于订单的成本优化,运筹学,53,151-169(2005)·Zbl 1165.90330号
[32] Mamani,H。;Nassiri,S。;Wagner,M.R.,《稳健库存管理的封闭式解决方案》,《管理科学》,63,5,1625-1643(2017)
[33] 马尔巴赫,P。;Tsitsiklis,J.N.,基于模拟的马尔可夫报酬过程优化,IEEE自动控制事务,46,2,191-209(2001)·Zbl 0992.93088号
[34] Martagan,T。;克里希纳穆尔西,A。;利兰,P.A。;Maravelias,C.T.,工程蛋白质的性能保证和最佳纯化决策,运筹学,66,1,18-41(2018)·Zbl 1442.90104号
[35] 米希奇,V.V。;Perakis,G.,《运营管理中的数据分析:综述》,《制造和服务运营管理》,22,1,158-169(2020)
[36] Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.、Lillicrap,T.P.和Harley,T.等人(2016)。深度强化学习的异步方法。arXiv:1602.01783年
[37] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,A.A。;Veness,J。;Bellemare,M.G.,《通过深度强化学习实现人类层面的控制》,《自然》,518,7540,529-533(2015)
[38] Nazari,M.、Jahani,M.,Snyder,L.V.和Takác,M.(2019年)。不要忘记你的老师:纠正强化学习框架。arXiv:1905.13562
[39] Ng,A.Y。;原田,D。;Russell,S.,《奖励转换下的政策不变性:奖励形成的理论与应用》,第16届机器学习国际会议论文集,278-287(1999)
[40] Oroojlooyjadid,A。;纳扎里,M。;斯奈德,L.V。;Takác,M.,《啤酒游戏的深度q网络:库存优化的深度强化学习》(2021年),《制造与服务运营管理》
[41] Pirhooshyaran,M.和Snyder,L.V.(2020年)。以深度神经网络为决策者的随机多螯虾库存优化同时决策。arXiv:2006.05608年
[42] 鲍威尔,W.B.,《近似动态规划:解决维度的诅咒》(2007),约翰·威利父子公司:约翰·威利和索恩斯·霍博肯,新泽西州·Zbl 1156.90021号
[43] Puterman,M.L.,马尔可夫决策过程:离散随机动态规划(1994),John Wiley&Sons,Inc.:John Wiley&Sons,Inc.,新泽西州霍博肯·Zbl 0829.90134号
[44] Schrittwieser,J。;安东尼奥卢,I。;休伯特,T。;Simonyan,K。;Sifre,L。;Schmitt,S.,《通过学习模型规划掌握雅达利、围棋、国际象棋和Shogi》,《自然》,588,7839,604-609(2020)
[45] Schulman,J.、Levine,S.、Moritz,P.、Jordan,M.I.和Abbeel,P.(2015a)。信托区域政策优化。arXiv:1502.05477
[46] Schulman,J.、Moritz,P.、Levine,S.、Jordan,M.I.和Abbeel,P.(2015b)。基于广义优势估计的高维连续控制。arXiv:1506.02438
[47] Schulman,J.、Wolski,F.、Dhariwal,P.、Radford,A.和Klimov,O.(2017)。近似策略优化算法。arXiv公司:1707.06347
[48] 西尔弗·D。;Schrittwieser,J。;Simonyan,K。;安东尼奥卢,I。;黄,A。;Guez,A.,《在没有人类知识的情况下掌握围棋》,《自然》,550、7676、354-359(2017)
[49] Simchi-Levi,D.,《OM forum-OM research:从问题驱动到数据驱动的研究》,《制造和服务运营管理》,第16、1、2-10页(2014年)
[50] 斯诺克,J。;拉罗谢尔,H。;Adams,R.P.,机器学习算法的实用贝叶斯优化,神经信息处理系统进展,252951-2959(2012)
[51] Sun,P。;王凯。;Zipkin,P.,损失销售和易腐库存控制问题中成本函数的二次近似(2014)
[52] Sutton,R.S。;Barto,A.G.,《强化学习:简介》(2018),麻省理工学院剑桥出版社·Zbl 1407.68009号
[53] Sutton,R.S。;McAllester,D.A。;辛格,S.P。;Mansour,Y.,函数近似强化学习的策略梯度方法。,第十二届神经信息处理国际会议论文集,1057-1063(1999)
[54] Tesauro,G.,《时间差异学习中的实际问题》,机器学习,8257-277(1992)·Zbl 0772.68075号
[55] Tesauro,G.,TD-Gammon,一个自学的双陆棋程序,实现了大师级的游戏,《神经计算》,6,2,215-219(1994)
[56] 齐齐克利斯,J.N。;Van Roy,B.,《用函数逼近分析时间差分学习》,IEEE自动控制学报,42,5,674-690(1997)·Zbl 0914.93075号
[57] Van Roy,B。;Bertsekas,D.P。;Lee,Y。;Tsitsiklis,J.N.,《零售商库存管理的神经动力学编程方法》,第36届IEEE决策与控制会议论文集(1997)
[58] Vanvuchelen,N。;Gijsbrechts,J。;Boute,R.,《使用最近策略优化解决联合补给问题》,《工业中的计算机》,119,103239(2020)
[59] Veinott,A.F.,《数学库存理论的现状》,《管理科学》,第12、11、745-777页(1966年)·Zbl 0143.21801号
[60] Williams,R.J.,连接主义强化学习的简单统计梯度跟随算法,机器学习,8,3229-256(1992)·Zbl 0772.68076号
[61] Zipkin,P.,《损失库存系统的新旧方法》,运筹学,56,5,1256-1263(2008)·Zbl 1167.90370号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。