×

随机迭代动态规划算法的收敛性。 (英语) Zbl 0822.68095号

摘要:强化学习领域的最新发展产生了许多用于预测和控制马尔科夫环境的新算法。这些算法,包括Sutton(1988)的TD(lambda)算法和Watkins(1989)的Q-学习算法,都可以作为动态规划(DP)的近似值来启发。本文通过一个新的收敛定理,将这些基于DP-的学习算法与随机逼近理论的强大技术联系起来,从而提供了收敛性的严格证明。该定理建立了(TD(λ)学习和(Q)学习都属于的一类收敛算法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Barto A.G.,《神经信息处理系统的进展》,2,D.Touretzky,ed.pp 686–(1990)
[2] Dayan P.,机器学习8 pp 341–(1992)
[3] DOI:10.1214/aoms/1177729586·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[4] Watkins C.J.C.H,机器学习。第8页279页–(1992年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。