文件Zbl 0822.68095-zbMATH Open

随机迭代动态规划算法的收敛性。（英语） Zbl 0822.68095号

神经计算。 6，第6期，1185-1201（1994）.

摘要：强化学习领域的最新发展产生了许多用于预测和控制马尔科夫环境的新算法。这些算法，包括Sutton（1988）的TD（lambda）算法和Watkins（1989）的Q-学习算法，都可以作为动态规划（DP）的近似值来启发。本文通过一个新的收敛定理，将这些基于DP-的学习算法与随机逼近理论的强大技术联系起来，从而提供了收敛性的严格证明。该定理建立了（TD（λ）学习和（Q）学习都属于的一类收敛算法。

引用于44文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
90立方厘米	随机规划

关键词：

\（Q\）-学习算法

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	Barto A.G.，《神经信息处理系统的进展》，2，D.Touretzky，ed.pp 686–（1990）
[2]	Dayan P.，机器学习8 pp 341–（1992）
[3]	DOI:10.1214/aoms/1177729586·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[4]	Watkins C.J.C.H，机器学习。第8页279页–（1992年）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

随机迭代动态规划算法的收敛性。（英语） Zbl 0822.68095号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

随机迭代动态规划算法的收敛性。 （英语） Zbl 0822.68095号

MSC公司：

关键词：

参考文献：

随机迭代动态规划算法的收敛性。（英语） Zbl 0822.68095号