的一部分神经信息处理系统的进展33(NeurIPS 2020)
亚瑟·德拉鲁(Arthur Delarue)、罗斯·安德森(Ross Anderson)、克里斯蒂安·特詹德拉特马德加(Christian Tjandratmadja)
长期以来,基于值函数的方法在强化学习中发挥着重要作用。然而,当操作空间对于枚举来说太大时,在给定任意复杂度的值函数的情况下,找到最佳的下一个操作并不容易。我们开发了一个基于组合动作空间的基于值函数的深度强化学习框架,其中动作选择问题被明确表示为一个混合整数优化问题。作为一个激励性的例子,我们将该框架应用于容量受限的车辆路径问题(CVRP),这是一个组合优化问题,其中一组位置必须由一辆容量有限的车辆覆盖。在每个实例中,我们将一个动作建模为单个路由的构造,并考虑通过简单的策略迭代算法改进的确定性策略。我们的方法与其他强化学习方法具有竞争力,在中等规模的标准库实例上,与最先进的OR方法平均差距为1.7%。
在电子诉讼程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。