Safe Policy Iteration: A Monotonically Improving Approximate Policy Iteration Approach

Alberto Maria Metelli; Matteo Pirotta; Daniele Calandriello; Marcello Restelli

本文研究了可由近似策略迭代算法有效利用的策略改进步骤。当策略评估步骤或策略改进步骤返回近似结果时，策略迭代产生的策略序列可能不会单调增加，并且可能会出现振荡。为了解决这个问题，我们考虑安全策略改进，即在每次迭代时，我们搜索一个策略，使当前策略的策略改进的下限最大化，直到找不到改进策略为止。我们提出了三种安全的策略迭代模式，它们在选择下一个策略的方式上与估计的贪婪策略不同。除了从理论上进行推导和讨论外，还对提出的算法在一些链式域、监狱域和21点纸牌游戏中进行了实证评估和比较。

安全策略迭代：一种单调改进的近似策略迭代方法

摘要