软件搜索-zbMATH Open

ORL公司

swMATH ID:	34775
软件作者：	巴拉坦·巴拉吉、乔丹·贝尔·马斯特森、埃内斯·比尔金、安德烈亚斯·达米亚努、巴勃罗·莫雷诺-加西亚、阿比特·贾恩、罗润飞、阿尔瓦罗·马吉亚、巴拉克里什南·纳拉亚纳斯瓦米、春叶
描述：	ORL：在线随机优化问题的强化学习基准。强化学习（RL）在机器人和游戏等领域取得了最先进的成果。我们在先前工作的基础上，将RL算法应用于一系列具有实际应用的经典在线随机优化问题：装箱、新闻供应商和车辆路线。虽然有一个新兴的文献将RL应用于这些问题，但没有普遍接受的基准可以用于严格比较拟议方法的性能、规模或通用性。本文旨在填补这一空白。对于每个问题，我们都应用了标准方法和更新的RL算法，并分析了结果。在每种情况下，经过训练的RL策略的性能都与相应的基线相竞争或优于相应的基线，而在领域知识方面不需要太多。这突出了RL在实际动态资源分配问题中的潜力。
主页：	https://arxiv.org/abs/1911.10641
源代码：	https://github.com/awslabs/or-rl-benchmarks网站
相关软件：	阿尔法零;VRP公司;CVRPSP公司;BARON公司;雷;皮奥莫;OpenAI健身房;OR-Gym公司;古罗比
引用于：	1文件

计算机与运筹学

1	运筹学、数学规划（90-XX）