×

一般(lambda\)的\(TD(\lambda)\)的收敛性。 (英语) Zbl 0773.68060号

总结:时间差异法(TD)是对未来做出一致预测的一种方法。本文使用了一些分析C.I.C.H.沃特金斯【从延迟奖励中学习。英国剑桥大学博士论文(1989)】R.S.萨顿[学习通过时间差分方法进行预测,机器学习3,9-44(1988)],从只使用相邻时间步的信息到包含任意时间步信息的情况。
它还考虑了该版本的TD在面对状态的线性相关表示时的行为,表明它仍然收敛,但与最小二乘算法的答案不同。最后,它采用了Watkins的定理,即({mathcal Q})-学习,即他的密切相关的预测和行动学习方法,以概率1收敛,以证明对稍微修改的TD版本的这种强收敛形式。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Albus,J.S.(1975年)。一种新的机械手控制方法:小脑模型关节控制器(CMAC)。ASME汇刊:动力系统、测量和控制杂志,97,220-227·Zbl 0314.92007号 ·数字对象标识代码:10.1115/1.3426922
[2] Barto,A.G.、Sutton,R.S.和Anderson,C.W.(1983年)。可以解决学习难题的类似神经元的元素。IEEE系统、人与控制论汇刊,13834-846。
[3] Barto,A.G.、Sutton,R.S.和Watkins,C.J.C.H.(1990)。学习和顺序决策。M.Gabriel和J.Moore(编辑),《学习和计算神经科学:自适应网络的基础》。马萨诸塞州剑桥:麻省理工学院出版社,布拉德福德出版社。
[4] Bellman,R.E.&Dreyfus,S.E.(1962年)。应用动态编程。兰德公司·Zbl 0106.34901号
[5] Dayan,P.(1991)。强化联结主义:学习统计方法。苏格兰爱丁堡大学博士论文。
[6] 汉普森,S.E.(1983)。自适应行为的神经模型。博士论文。加州大学欧文分校·Zbl 0521.92030号
[7] 汉普森,S.E.(1990年)。联结主义问题解决:生物学习的计算方面。马萨诸塞州波士顿:Birkhäuser Boston·Zbl 0713.68044号
[8] 霍兰德,J.H.(1986)。逃避脆弱性:通用学习算法应用于并行规则系统的可能性。R.S.Michalski、J.G.Carbonell和T.M.Mitchell(编辑),《机器学习:人工智能方法》,2。加利福尼亚州洛斯阿尔托斯:Morgan Kaufmann。
[9] Klopf,A.H.(1972)。大脑功能和适应系统?异向性理论。空军研究实验室研究报告,AFCRL-72-0164。马萨诸塞州贝德福德。
[10] Klopf,A.H.(1982)。享乐主义神经元:关于记忆、学习和智力的理论。华盛顿特区:半球。
[11] 米奇。D.&Chambers,R.A.(1968年)。盒子:自适应控制的实验。机器智能,2137-152·Zbl 0213.18104号
[12] 摩尔·A.W.(1990)。机器人控制的高效基于记忆的学习。英国剑桥大学计算机实验室博士论文。
[13] Omohundro,S.(1987)。具有神经网络行为的高效算法。复杂系统,1273-347·兹伯利0659.68101
[14] Samuel,A.L.(1959年)。使用跳棋游戏进行机器学习的一些研究。重印于E.A.Feigenbaum和J.Feldman(编辑)(1963年)。电脑和思维。麦格劳-希尔。
[15] Samuel,A.L.(1967年)。使用跳棋游戏进行机器学习的一些研究II:最新进展。IBM研究与开发杂志,11601-617·doi:10.1147/rd.116.0601
[16] Sutton,R.S.(1984)。强化学习中的时间学分分配。马萨诸塞大学硕士学位论文。
[17] Sutton,R.S.(1988)。学习通过时间差异的方法进行预测。机器学习,3,9-44。
[18] Varga,R.S.(1962年)。矩阵迭代分析。新泽西州恩格尔伍德克利夫斯:普伦蒂斯·霍尔·Zbl 0133.08602号
[19] Watkins,C.I.C.H.(1989)。从延迟的奖励中学习。博士论文。英国剑桥大学。
[20] Werbos,P.J.(1990年)。HDP的一致性应用于简单的强化学习问题。神经网络,3179-189·doi:10.1016/0893-6080(90)90088-3
[21] Widrow,B.&Stearns,S.D.(1985年)。自适应信号处理。新泽西州恩格尔伍德克利夫斯:普伦蒂斯·霍尔·Zbl 0593.93063号
[22] Witten,I.H.(1977年)。离散时间马尔可夫环境的自适应最优控制器。信息与控制,34,286-295·Zbl 0373.93025号 ·doi:10.1016/S0019-9958(77)90354-0
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。