×

具有平均成本的马尔可夫决策过程的学习算法。 (英语) Zbl 1001.93091号

作者首次提出并给出了最优平均成本控制问题的两种Q学习算法的严格收敛性分析。一种是原始相对值迭代(RVI)算法的随机近似模拟,另一种是基于问题的随机最短路径(SSP)公式的值迭代算法的随机逼近模拟[参见。D.贝塞卡斯J.N.齐齐克利斯神经动力学编程,Athena Scientific,马萨诸塞州贝尔蒙特(1996;Zbl 0924.68163号);V.S.博卡尔S.P.梅恩,SIAM J.控制优化38,447-469(2000;Zbl 0990.62071号)]. 本文通过研究\(Q^n\)的a.s.有界性和\(Q\)因子的相关ODE的稳定性行为,考虑并分析了同步和异步实现。有意义的是,由于状态空间较大,加速技术的使用值得探索,而在强化学习中,收敛速度通常较慢。此外,无限状态空间的情况仍然是一个悬而未决的问题。这些可能是该领域未来的重要方向。

MSC公司:

93年20日 最优随机控制
90立方厘米 马尔可夫和半马尔可夫决策过程
62L20型 随机近似
93E15型 控制理论中的随机稳定性
49升20 最优控制与微分对策中的动态规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部