离散化连续行动空间的在线策略优化

作者

  • 汤云浩 哥伦比亚大学
  • 希普拉·阿格拉瓦尔 哥伦比亚大学

内政部:

https://doi.org/10.1609/aaai.v34i04.6059

摘要

在这项工作中,我们证明了连续控制的离散作用空间是一种简单而强大的策略优化技术。离散动作数量的激增可以通过跨动作维度的因子化分布策略有效解决。我们表明,使用最先进的策略优化算法(PPO、TRPO、ACKTR),尤其是在具有复杂动力学的高维任务上,离散策略取得了显著的性能提升。此外,我们还表明,离散分布的序数参数化可以引入归纳偏差,从而对离散动作之间的自然顺序进行编码。这种有序体系结构进一步显著提高了PPO/TRPO的性能。

下载

出版

2020-04-03

如何引用

Tang,Y.和Agrawal,S.(2020年)。离散化连续行动空间用于在线策略优化。AAAI人工智能会议记录,34(04), 5981-5988. https://doi.org/10.1609/aaai.v34i04.6059

发行

章节

AAAI技术方向:机器学习