主页

论文

提交文件

新闻

编辑委员会

特殊问题

开源软件

诉讼程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

连续控制下重尾策略搜索的样本复杂性和元稳定性

Amrit Singh Bedi、Anjaly Parayil、Junyu Zhang、Mengdi Wang、Alec Koppel; 25(39):1−58, 2024.

摘要

强化学习是一种交互式决策框架,在没有系统动力学模型的情况下,激励因素会随时间顺序显示。由于其可扩展到连续空间,我们将重点放在策略搜索上,其中一个策略通过随机策略梯度(PG)更新迭代改进参数化策略。在表马尔可夫决策问题(MDP)中,通过持续探索和适当的参数化,可以获得全局最优解。相比之下,在连续空间中,非凸性带来了病理学上的挑战,现有的收敛结果大多局限于平稳性或任意的局部极值。为了缩小这一差距,我们通过策略参数化在连续空间中实现持续探索,策略参数化由尾诱导参数$\alpha$定义的较重尾部分布定义,这增加了状态空间跳跃的可能性。这样做会使PG常见的得分函数的光滑性条件无效。因此,我们确定了平稳性的收敛速度如何取决于策略的尾指数$\alpha$、Hölder连续性参数、可积性条件和首次引入的探索容差参数。此外,我们通过对适当定义的马尔可夫链的退出和转移时间分析,刻画了局部极大值集对尾部指数的依赖性,确定了与较大尾部的Lévy过程相关的策略收敛到更宽的峰值。这一现象提高了监督学习中扰动的稳定性,我们也证实了这一点,这也体现在政策搜索性能的提高上,特别是当短视和远见的激励措施不一致时。

[腹肌][pdf格式][围兜]      
©JMLR公司2024(编辑,贝塔)

乳臭虫