Discretizing Continuous Action Space for On-Policy Optimization

Yunhao Tang; Shipra Agrawal

doi:10.1609/aaai.v34i04.6059

离散化连续行动空间的在线策略优化

作者

汤云浩哥伦比亚大学
希普拉·阿格拉瓦尔哥伦比亚大学

内政部：

https://doi.org/10.1609/aaai.v34i04.6059

摘要

在这项工作中，我们证明了连续控制的离散作用空间是一种简单而强大的策略优化技术。离散动作数量的激增可以通过跨动作维度的因子化分布策略有效解决。我们表明，使用最先进的策略优化算法（PPO、TRPO、ACKTR），尤其是在具有复杂动力学的高维任务上，离散策略取得了显著的性能提升。此外，我们还表明，离散分布的序数参数化可以引入归纳偏差，从而对离散动作之间的自然顺序进行编码。这种有序体系结构进一步显著提高了PPO/TRPO的性能。