大多数传统的策略梯度强化学习(PGRL)算法忽略(或没有明确使用)与策略参数相关的平均奖励梯度中的一个项。该项涉及稳态分布的导数,对应于其分布对政策参数变化的敏感性。尽管可以通过将值函数的遗忘率γ设置为接近1来减少这种遗漏引入的偏差,但这些算法不允许将γ精确设置为γ=1。在本文中,我们提出了一种通过后向马尔可夫链公式和时间差学习框架来估计对数平稳状态分布导数(LSD)的方法,作为平稳状态分布导数的一种有用形式,其中,平均奖励梯度可以通过设置γ=0来估计,因此无需学习值函数。我们还使用简单的基准任务测试了所提算法的性能,表明这些算法可以提高现有PG方法的性能。

您当前无权访问此内容。