主页

论文

提交文件

新闻

编辑委员会

开源软件

程序(PMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

安全策略迭代:一种单调改进的近似策略迭代方法

Alberto Maria Metelli、Matteo Pirotta、Daniele Calandriello、Marcelo Restelli; 22(97):1−83, 2021.

摘要

本文研究了可由近似策略迭代算法有效利用的策略改进步骤。当策略评估步骤或策略改进步骤返回近似结果时,策略迭代产生的策略序列可能不会单调增加,并且可能会出现振荡。为了解决这个问题,我们考虑安全策略改进,即在每次迭代时,我们搜索一个策略,使当前策略的策略改进的下限最大化,直到找不到改进策略为止。我们提出了三种安全的策略迭代模式,它们在选择下一个策略的方式上与估计的贪婪策略不同。除了从理论上进行推导和讨论外,还对提出的算法在一些链式域、监狱域和21点纸牌游戏中进行了实证评估和比较。

[腹肌][pdf格式][围兜]      
©JMLR公司2021(编辑贝塔)