组合动作强化学习在车辆路径中的应用

的一部分神经信息处理系统的进展33(NeurIPS 2020)

作者反馈 Biptex公司 MetaReview公司 纸类 审查 补充的

作者

亚瑟·德拉鲁(Arthur Delarue)、罗斯·安德森(Ross Anderson)、克里斯蒂安·特詹德拉特马德加(Christian Tjandratmadja)

摘要

长期以来,基于值函数的方法在强化学习中发挥着重要作用。然而,当操作空间对于枚举来说太大时,在给定任意复杂度的值函数的情况下,找到最佳的下一个操作并不容易。我们开发了一个基于组合动作空间的基于值函数的深度强化学习框架,其中动作选择问题被明确表示为一个混合整数优化问题。作为一个激励性的例子,我们将该框架应用于容量受限的车辆路径问题(CVRP),这是一个组合优化问题,其中一组位置必须由一辆容量有限的车辆覆盖。在每个实例中,我们将一个动作建模为单个路由的构造,并考虑通过简单的策略迭代算法改进的确定性策略。我们的方法与其他强化学习方法具有竞争力,在中等规模的标准库实例上,与最先进的OR方法平均差距为1.7%。