×

ORL公司

swMATH ID: 34775
软件作者: 巴拉坦·巴拉吉、乔丹·贝尔·马斯特森、埃内斯·比尔金、安德烈亚斯·达米亚努、巴勃罗·莫雷诺-加西亚、阿比特·贾恩、罗润飞、阿尔瓦罗·马吉亚、巴拉克里什南·纳拉亚纳斯瓦米、春叶
描述: ORL:在线随机优化问题的强化学习基准。强化学习(RL)在机器人和游戏等领域取得了最先进的成果。我们在先前工作的基础上,将RL算法应用于一系列具有实际应用的经典在线随机优化问题:装箱、新闻供应商和车辆路线。虽然有一个新兴的文献将RL应用于这些问题,但没有普遍接受的基准可以用于严格比较拟议方法的性能、规模或通用性。本文旨在填补这一空白。对于每个问题,我们都应用了标准方法和更新的RL算法,并分析了结果。在每种情况下,经过训练的RL策略的性能都与相应的基线相竞争或优于相应的基线,而在领域知识方面不需要太多。这突出了RL在实际动态资源分配问题中的潜力。
主页: https://arxiv.org/abs/1911.10641
源代码:  https://github.com/awslabs/or-rl-benchmarks网站
相关软件: 阿尔法零;VRP公司;CVRPSP公司;BARON公司;;皮奥莫;OpenAI健身房;OR-Gym公司;古罗比
引用于: 1文件

按年份列出的引文