On the Sample Complexity and Metastability of Heavy-tailed Policy Search in Continuous Control

Amrit Singh Bedi; Anjaly Parayil; Junyu Zhang; Mengdi Wang; Alec Koppel

强化学习是一种交互式决策框架，在没有系统动力学模型的情况下，激励因素会随时间顺序显示。由于其可扩展到连续空间，我们将重点放在策略搜索上，其中一个策略通过随机策略梯度（PG）更新迭代改进参数化策略。在表马尔可夫决策问题（MDP）中，通过持续探索和适当的参数化，可以获得全局最优解。相比之下，在连续空间中，非凸性带来了病理学上的挑战，现有的收敛结果大多局限于平稳性或任意的局部极值。为了缩小这一差距，我们通过策略参数化在连续空间中实现持续探索，策略参数化由尾诱导参数$\alpha$定义的较重尾部分布定义，这增加了状态空间跳跃的可能性。这样做会使PG常见的得分函数的光滑性条件无效。因此，我们确定了平稳性的收敛速度如何取决于策略的尾指数$\alpha$、Hölder连续性参数、可积性条件和首次引入的探索容差参数。此外，我们通过对适当定义的马尔可夫链的退出和转移时间分析，刻画了局部极大值集对尾部指数的依赖性，确定了与较大尾部的Lévy过程相关的策略收敛到更宽的峰值。这一现象提高了监督学习中扰动的稳定性，我们也证实了这一点，这也体现在政策搜索性能的提高上，特别是当短视和远见的激励措施不一致时。

连续控制下重尾策略搜索的样本复杂性和元稳定性

摘要