托米·雅科拉;迈克尔·乔丹。;Satinder P.辛格。 随机迭代动态规划算法的收敛性。 (英语) Zbl 0822.68095号 神经计算。 6,第6期,1185-1201(1994). 摘要:强化学习领域的最新发展产生了许多用于预测和控制马尔科夫环境的新算法。这些算法,包括Sutton(1988)的TD(lambda)算法和Watkins(1989)的Q-学习算法,都可以作为动态规划(DP)的近似值来启发。本文通过一个新的收敛定理,将这些基于DP-的学习算法与随机逼近理论的强大技术联系起来,从而提供了收敛性的严格证明。该定理建立了(TD(λ)学习和(Q)学习都属于的一类收敛算法。 引用于44文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 90立方厘米 随机规划 关键词:\(Q\)-学习算法 PDF格式BibTeX公司 XML格式引用 \textit{T.Jaakkola}等人,《神经计算》。6,第6号,1185--1201(1994;Zbl 0822.68095) 全文: 内政部 链接 参考文献: [1] Barto A.G.,《神经信息处理系统的进展》,2,D.Touretzky,ed.pp 686–(1990) [2] Dayan P.,机器学习8 pp 341–(1992) [3] DOI:10.1214/aoms/1177729586·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586 [4] Watkins C.J.C.H,机器学习。第8页279页–(1992年) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。