文件Zbl 1490.90012-zbMATH打开

库存控制的深度强化学习：路线图。（英语） Zbl 1490.90012号

欧洲药典。物件。 298，第2期，401-412（2022）.

摘要：深度强化学习（DRL）在顺序决策方面显示出巨大的潜力，包括库存控制的早期发展。然而，设计DRL算法所带来的丰富选择，再加上调整和评估每个选择所需的大量计算工作，可能会妨碍它们在实践中的应用。本文描述了DRL算法的关键设计选择，以促进其在库存控制中的实现。我们还阐明了未来可能的研究途径，这些研究途径可能会提升当前库存控制日间行车灯应用的最新水平，并通过利用和改进库存研究中的结构政策见解来扩大其范围。我们的讨论和路线图也可能会促进运营管理其他领域的未来研究。

引用于6文件

MSC公司：

90磅05	库存、储存、水库
68T05型	人工智能中的学习和自适应系统
90-02	与运筹学和数学规划有关的研究博览会（专著、调查文章）

关键词：

库存管理;机器学习;强化学习;神经网络

软件：

ImageNet公司;亚当;青蒿素;AlexNet公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

OA许可证

参考文献：

[1]	贝克，B。；Kanitscheider，I。；马尔科夫，T。；Wu，Y。；鲍威尔，G。；McGrew，B.，多智能体自动库的紧急工具使用，第八届学习表征国际会议论文集（ICLR）（2020）
[2]	Bellman，R.，《动态规划理论》，美国数学学会公报，60，6，503-515（1954）·Zbl 0057.1253号
[3]	Bengio，Y.，《基于梯度的深层架构培训实用建议》，《神经网络：行业技巧》，437-478（2012），施普林格出版社
[4]	Bergstra，J。；Yamins，D。；Cox，D.，《建立模型搜索科学：视觉架构数百维超参数优化》，第30届机器学习国际会议论文集，115-123（2013）
[5]	Bertsekas，D.P.，《动态规划：确定性和随机模型》（1987），新泽西州普伦蒂斯·霍尔：普伦蒂塞·霍尔恩格尔伍德克利夫斯·Zbl 0649.93001号
[6]	Bertsekas，D.P.，强化学习和最优控制（2019），雅典娜科学：雅典娜科技贝尔蒙特，马萨诸塞州
[7]	Bertsekas，D.P。；Tsitsiklis，J.N.，神经动力学编程（1996），雅典娜科学：雅典娜科技贝尔蒙特，马萨诸塞州·Zbl 0924.68163号
[8]	Bertsimas，D。；Thiele，A.，库存理论的鲁棒优化方法，运筹学，54，1150-168（2006）·Zbl 1167.90314号
[9]	布拉沃，F。；Shaposhnik，Y.，《采矿优化政策：模型分析的模式识别方法》，《信息优化杂志》，第2期，第3期，第145-166页（2020年）
[10]	Chen，W。；Yang，H.，基于二次近似的启发式算法，用于一般提前期和供应能力不确定性的双重采购问题，IISE Transactions，51，9，943-956（2019）
[11]	De Moor，B.J.、Gijsbrechts，J.和Boute，R.N.（2021年）。奖励塑造，以提高库存管理中深度强化学习的绩效。SSRN提供：https://doi.org/10.2139/ssrn.3804655。
[12]	Dulac-Arnold，G.、Mankowitz，D.和Hester，T.（2019年）。现实世界强化学习的挑战。arXiv:1904.12901年
[13]	弗朗索瓦·拉维特，V。；亨德森，P。；伊斯兰共和国。；Bellemare，M.G。；Pineau，J.，深度强化学习简介，机器学习的基础和趋势，11，3-4，219-354（2018）
[14]	Garychl（2018）。强化学习在现实世界中的应用。2021年4月13日检索自https://towardsdatascience.com/applications-of-reinformance-learning-in-real-world1a94955bcd12。
[15]	Gershgorn，D.（2018）。人工智能只有一个突破。2021年4月13日检索自https://qz.com/1419346/ai-has-had-just-one-breakthrough-says-kai-fu-lee。
[16]	Gijsbrechts，J.、Boute，R.、Zhang，D.和Van Mieghem，J.（2019年）。深度强化学习可以改善库存管理吗？在双重采购、销售损失和多切尔西问题上的表现。SSRN提供：https://doi.org/10.2139/ssrn.3302881。
[17]	吉尔平，L.H。；鲍博士。；袁伯忠。；Bajwa，A。；斯佩克特，M。；Kagal，L.，解释：机器学习的可解释性概述，第五届ieee数据科学和高级分析国际会议（DSAA）论文集，80-89（2018）
[18]	Goldberg，D.A。；Katz-Rogozhnikov，D.A。；Lu，Y。；夏尔马，M。；Squillante，M.S.，大提前期损失销售库存模型恒阶策略的渐近最优性，运筹学数学，41，3，745-1160（2016）·Zbl 1342.90006号
[19]	古德费罗，I.J。；Pouget-Abadie，J。；米尔扎，M。；徐，B。；Warde Farley博士。；Ozair，S.，生成对抗网，第27届神经信息处理系统国际会议论文集，2672-2680（2014）
[20]	海塞尔，M。；Modayil，J。；Van Hasselt，H。；Schaul，T。；奥斯特罗夫斯基，G。；Dabney，W.，Rainbow：结合深度强化学习的改进，第32届aaai人工智能会议论文集，3215-3222（2018）
[21]	霍尼克，K。；Stinchcombe，M。；White，H.，多层前馈网络是通用逼近器，神经网络，2，5，359-366（1989）·Zbl 1383.92015年
[22]	华，Z。；Yu，Y。；张伟。；Xu，X.，具有一般提前期的双源系统最优策略的结构性质，IIE Transactions，47，8，841-850（2015）
[23]	卡卡德，S。；Langford，J.，《近似最优近似强化学习》，第19届机器学习国际会议论文集，267-274（2002）
[24]	Kakade，S.M.，《自然政策梯度》，《神经信息处理系统的进展》，第14期，第1531-1538页（2001年）
[25]	Karlin，S。；Scarf，H.，带时滞的Arrow-Harris-Marschak型库存模型，库存和生产数学理论研究，155-178）（1958），斯坦福大学出版社
[26]	Kaynov，I.（2021）。非对称单仓库多零售商库存管理的深度强化学习。网址：https://research.tue.nl/en/studentTheses/deep-rinformation-learning-for-asymmetric-on-warehouse-multi-re。
[27]	金玛，D.P。；Ba，J.，Adam：随机优化方法，第三届国际学习表征会议论文集（ICLR）（2015）
[28]	Kranenburg，A。；Van Houtum，G.-J.，《备件网络的新型部分池结构》，《欧洲运筹学杂志》，199,3908-921（2009）·Zbl 1176.90026号
[29]	Krizhevsky，A。；Sutskever，I。；Hinton，G.E.，用深度卷积神经网络进行Imagenet分类，神经信息处理系统进展，251097-1105（2012）
[30]	Levine，S.、Kumar，A.、Tucker，G.和Fu，J.（2020年）。离线强化学习：关于开放性问题的教程、复习和观点。arXiv:2005.01643号
[31]	Lu，Y。；Song，J.-S.，组装到订单系统中基于订单的成本优化，运筹学，53，151-169（2005）·Zbl 1165.90330号
[32]	Mamani，H。；Nassiri，S。；Wagner，M.R.，《稳健库存管理的封闭式解决方案》，《管理科学》，63，5，1625-1643（2017）
[33]	马尔巴赫，P。；Tsitsiklis，J.N.，基于模拟的马尔可夫报酬过程优化，IEEE自动控制事务，46，2，191-209（2001）·Zbl 0992.93088号
[34]	Martagan，T。；克里希纳穆尔西，A。；利兰，P.A。；Maravelias，C.T.，工程蛋白质的性能保证和最佳纯化决策，运筹学，66，1，18-41（2018）·Zbl 1442.90104号
[35]	米希奇，V.V。；Perakis，G.，《运营管理中的数据分析：综述》，《制造和服务运营管理》，22，1，158-169（2020）
[36]	Mnih，V.、Badia，A.P.、Mirza，M.、Graves，A.、Lillicrap，T.P.和Harley，T.等人（2016）。深度强化学习的异步方法。arXiv:1602.01783年
[37]	Mnih，V。；Kavukcuoglu，K。；西尔弗·D。；Rusu，A.A。；Veness，J。；Bellemare，M.G.，《通过深度强化学习实现人类层面的控制》，《自然》，518，7540，529-533（2015）
[38]	Nazari，M.、Jahani，M.，Snyder，L.V.和Takác，M.（2019年）。不要忘记你的老师：纠正强化学习框架。arXiv:1905.13562
[39]	Ng，A.Y。；原田，D。；Russell，S.，《奖励转换下的政策不变性：奖励形成的理论与应用》，第16届机器学习国际会议论文集，278-287（1999）
[40]	Oroojlooyjadid，A。；纳扎里，M。；斯奈德，L.V。；Takác，M.，《啤酒游戏的深度q网络：库存优化的深度强化学习》（2021年），《制造与服务运营管理》
[41]	Pirhooshyaran，M.和Snyder，L.V.（2020年）。以深度神经网络为决策者的随机多螯虾库存优化同时决策。arXiv:2006.05608年
[42]	鲍威尔，W.B.，《近似动态规划：解决维度的诅咒》（2007），约翰·威利父子公司：约翰·威利和索恩斯·霍博肯，新泽西州·Zbl 1156.90021号
[43]	Puterman，M.L.，马尔可夫决策过程：离散随机动态规划（1994），John Wiley&Sons，Inc.：John Wiley&Sons，Inc.，新泽西州霍博肯·Zbl 0829.90134号
[44]	Schrittwieser，J。；安东尼奥卢，I。；休伯特，T。；Simonyan，K。；Sifre，L。；Schmitt，S.，《通过学习模型规划掌握雅达利、围棋、国际象棋和Shogi》，《自然》，588，7839，604-609（2020）
[45]	Schulman，J.、Levine，S.、Moritz，P.、Jordan，M.I.和Abbeel，P.（2015a）。信托区域政策优化。arXiv:1502.05477
[46]	Schulman，J.、Moritz，P.、Levine，S.、Jordan，M.I.和Abbeel，P.（2015b）。基于广义优势估计的高维连续控制。arXiv:1506.02438
[47]	Schulman，J.、Wolski，F.、Dhariwal，P.、Radford，A.和Klimov，O.（2017）。近似策略优化算法。arXiv公司：1707.06347
[48]	西尔弗·D。；Schrittwieser，J。；Simonyan，K。；安东尼奥卢，I。；黄，A。；Guez，A.，《在没有人类知识的情况下掌握围棋》，《自然》，550、7676、354-359（2017）
[49]	Simchi-Levi，D.，《OM forum-OM research：从问题驱动到数据驱动的研究》，《制造和服务运营管理》，第16、1、2-10页（2014年）
[50]	斯诺克，J。；拉罗谢尔，H。；Adams，R.P.，机器学习算法的实用贝叶斯优化，神经信息处理系统进展，252951-2959（2012）
[51]	Sun，P。；王凯。；Zipkin，P.，损失销售和易腐库存控制问题中成本函数的二次近似（2014）
[52]	Sutton，R.S。；Barto，A.G.，《强化学习：简介》（2018），麻省理工学院剑桥出版社·Zbl 1407.68009号
[53]	Sutton，R.S。；McAllester，D.A。；辛格，S.P。；Mansour，Y.，函数近似强化学习的策略梯度方法。，第十二届神经信息处理国际会议论文集，1057-1063（1999）
[54]	Tesauro，G.，《时间差异学习中的实际问题》，机器学习，8257-277（1992）·Zbl 0772.68075号
[55]	Tesauro，G.，TD-Gammon，一个自学的双陆棋程序，实现了大师级的游戏，《神经计算》，6，2，215-219（1994）
[56]	齐齐克利斯，J.N。；Van Roy，B.，《用函数逼近分析时间差分学习》，IEEE自动控制学报，42，5，674-690（1997）·Zbl 0914.93075号
[57]	Van Roy，B。；Bertsekas，D.P。；Lee，Y。；Tsitsiklis，J.N.，《零售商库存管理的神经动力学编程方法》，第36届IEEE决策与控制会议论文集（1997）
[58]	Vanvuchelen，N。；Gijsbrechts，J。；Boute，R.，《使用最近策略优化解决联合补给问题》，《工业中的计算机》，119，103239（2020）
[59]	Veinott，A.F.，《数学库存理论的现状》，《管理科学》，第12、11、745-777页（1966年）·Zbl 0143.21801号
[60]	Williams，R.J.，连接主义强化学习的简单统计梯度跟随算法，机器学习，8，3229-256（1992）·Zbl 0772.68076号
[61]	Zipkin，P.，《损失库存系统的新旧方法》，运筹学，56，5，1256-1263（2008）·Zbl 1167.90370号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

库存控制的深度强化学习：路线图。（英语） Zbl 1490.90012号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

库存控制的深度强化学习：路线图。 （英语） Zbl 1490.90012号

MSC公司：

关键词：

软件：

参考文献：

库存控制的深度强化学习：路线图。（英语） Zbl 1490.90012号