离散化连续行动空间的在线策略优化 作者 汤云浩 哥伦比亚大学 希普拉·阿格拉瓦尔 哥伦比亚大学 内政部: https://doi.org/10.1609/aaai.v34i04.6059 摘要 在这项工作中,我们证明了连续控制的离散作用空间是一种简单而强大的策略优化技术。离散动作数量的激增可以通过跨动作维度的因子化分布策略有效解决。我们表明,使用最先进的策略优化算法(PPO、TRPO、ACKTR),尤其是在具有复杂动力学的高维任务上,离散策略取得了显著的性能提升。此外,我们还表明,离散分布的序数参数化可以引入归纳偏差,从而对离散动作之间的自然顺序进行编码。这种有序体系结构进一步显著提高了PPO/TRPO的性能。 下载 PDF格式 出版 2020-04-03 如何引用 Tang,Y.和Agrawal,S.(2020年)。离散化连续行动空间用于在线策略优化。AAAI人工智能会议记录,34(04), 5981-5988. https://doi.org/10.1609/aaai.v34i04.6059 更多引文格式 ACM公司 ACS公司 亚太地区 澳大利亚北卡罗来纳州 芝加哥 哈佛 电气与电子工程师协会 MLA公司 图拉宾语 温哥华 下载引文 尾注/佐特罗/门德利(RIS) BibTeX公司 发行 第34卷第04期:AAAI-20技术轨道4 章节 AAAI技术方向:机器学习