@article{Tang_Agrawal_2020，title={用于在线策略优化的离散化连续操作空间}，volume={34}，url={https://ojs.aaai.org/index.php/aaai/article/view/6059}，DOI={10.1609/aaai.v34i04.6059}，摘要注释={<p>在这项工作中，我们证明了离散化连续控制的动作空间是一种简单而强大的按策略优化技术。通过在动作维度上进行因式分解分布的策略，可以有效地解决离散动作数量的激增问题。我们表明，离散策略取得了显著的性能使用最先进的策略优化算法（PPO、TRPO、ACKTR），尤其是在具有复杂动态的高维任务上，nce获得了更大的收益。此外，我们还表明，离散分布的序数参数化可以引入归纳偏差，从而对离散动作之间的自然顺序进行编码。这种有序体系结构进一步显著提高了PPO/TRPO的性能</p> }，number={04}，journal={AAAI人工智能会议论文集}，author={Tang，Yunhao and Agrawal，Shipra}，year=2020}，month={Apr.}，pages={5981-5988}}}