文件Zbl 1001.93091-zbMATH Open

具有平均成本的马尔可夫决策过程的学习算法。（英语） Zbl 1001.93091号

SIAM J.控制优化 40，第3期，681-698（2001）.

作者首次提出并给出了最优平均成本控制问题的两种Q学习算法的严格收敛性分析。一种是原始相对值迭代（RVI）算法的随机近似模拟，另一种是基于问题的随机最短路径（SSP）公式的值迭代算法的随机逼近模拟[参见。D.贝塞卡斯和J.N.齐齐克利斯神经动力学编程，Athena Scientific，马萨诸塞州贝尔蒙特（1996；Zbl 0924.68163号);V.S.博卡尔和S.P.梅恩，SIAM J.控制优化38，447-469（2000；Zbl 0990.62071号)]. 本文通过研究\（Q^n\）的a.s.有界性和\（Q\）因子的相关ODE的稳定性行为，考虑并分析了同步和异步实现。有意义的是，由于状态空间较大，加速技术的使用值得探索，而在强化学习中，收敛速度通常较慢。此外，无限状态空间的情况仍然是一个悬而未决的问题。这些可能是该领域未来的重要方向。

审核人：吴成勋（上海）

引用于26文件

MSC公司：

93年20日	最优随机控制
90立方厘米	马尔可夫和半马尔可夫决策过程
62L20型	随机近似
93E15型	控制理论中的随机稳定性
49升20	最优控制与微分对策中的动态规划

关键词：

相对值迭代算法;稳定性

引文：

Zbl 0924.68163号;Zbl 0990.62071号

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有平均成本的马尔可夫决策过程的学习算法。（英语） Zbl 1001.93091号

MSC公司：

关键词：

引文：

示例

领域

操作员

具有平均成本的马尔可夫决策过程的学习算法。 （英语） Zbl 1001.93091号

MSC公司：

关键词：

引文：

具有平均成本的马尔可夫决策过程的学习算法。（英语） Zbl 1001.93091号