安全策略迭代:一种单调改进的近似策略迭代方法
Alberto Maria Metelli、Matteo Pirotta、Daniele Calandriello、Marcelo Restelli; 22(97):1−83, 2021.
摘要
本文研究了可由近似策略迭代算法有效利用的策略改进步骤。当策略评估步骤或策略改进步骤返回近似结果时,策略迭代产生的策略序列可能不会单调增加,并且可能会出现振荡。为了解决这个问题,我们考虑安全策略改进,即在每次迭代时,我们搜索一个策略,使当前策略的策略改进的下限最大化,直到找不到改进策略为止。我们提出了三种安全的策略迭代模式,它们在选择下一个策略的方式上与估计的贪婪策略不同。除了从理论上进行推导和讨论外,还对提出的算法在一些链式域、监狱域和21点纸牌游戏中进行了实证评估和比较。
[腹肌]
[pdf格式][围兜]