×

时差学习中的实际问题。 (英语) Zbl 0772.68075号

摘要:本文研究了用于训练连接网络的时间差分方法,如Sutton(TD(lambda))算法,能否成功应用于复杂的现实问题。从一般理论角度确定并讨论了一些重要的实际问题。然后,在一个案例研究的背景下,对这些实际问题进行了检验,在该案例研究中,将TD(lambda)应用于从自演的结果中学习双陆棋游戏。这显然是该算法首次应用于复杂的非平凡任务。研究发现,在内置零知识的情况下,网络能够从头开始学习,以相当强的中间性能水平玩整个游戏,这明显优于传统商业程序,事实上,这超过了基于大量人类专家数据集训练的可比网络。这表明,TD学习在实践中的效果可能比基于当前理论的预期要好,这表明,对TD方法的进一步分析以及在其他复杂领域的应用可能值得研究。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Anderson,C.W.(1987)。使用多层联结主义表征进行策略学习。第四届机器学习国际研讨会论文集(第103-114页)。
[2] Barto,A.G.、Sutton,R.S.和Anderson,C.W.(1983年)。类似神经元的自适应元件可以解决困难的学习控制问题。IEEE系统、人与控制论汇刊,13 835-846。
[3] Berliner,H.(1977年)。BKG的评估经验?玩西洋双陆棋的程序。IJCAI会议记录(第428-433页)。
[4] Berliner,H.(1979)。关于大领域评价函数的构建。国际JCAI会议记录(第53-55页)。
[5] Blumer,A.、Ehrenfeucht,A.、Haussler,D.和Warmuth,M.(1989年)。可学习性和Vapnik-Chervonenkis维度。杰克,36 929-965·Zbl 0697.68079号 ·数字对象标识代码:10.1145/76359.76371
[6] Christensen,J.&Korf,R.(1986年)。启发式评价函数的统一理论及其在学习中的应用。AAAI-86会议记录(第148-152页)。
[7] Dayan,P.(1992)。TD(?)的收敛性。机器学习,8 341-362·Zbl 0773.68060号
[8] Frey,P.W.(1986年)。提高游戏程序性能的算法策略。摘自:D.Farmer等人(编辑),《进化、游戏和学习》。阿姆斯特丹:北荷兰。
[9] Griffith,A.K.(1974)。对应用于跳棋游戏的三种机器学习程序进行比较和评估。人工智能,5 137-148·Zbl 0279.68065号 ·doi:10.1016/0004-3702(74)90027-7
[10] Holland,J.H.(1986)。逃避脆弱性:通用学习算法应用于并行规则系统的可能性。R.S.Michalski、J.G.Carbonell和T.M.Mitchell(编辑),《机器学习:人工智能方法》(第2卷)。加利福尼亚州洛斯阿尔托斯:Morgan Kaufmann。
[11] Hornik,K.、Stinchcombe,M.和White,H.(1989年)。多层前馈网络是通用逼近器。神经网络,2359-366·Zbl 1383.92015年 ·doi:10.1016/0893-6080(89)90020-8
[12] Lee,K.-F和Majahan,S.(1988年)。评价函数学习的模式分类方法。人工智能,36 1-25·Zbl 0644.68111号 ·doi:10.1016/0004-3702(88)90076-8
[13] Magriel,P.(1976年)。双陆棋。纽约:泰晤士报。
[14] Minsky,M.L.&Papert,S.A.(1969年)。感知器。马萨诸塞州剑桥:麻省理工学院出版社。(1988年作为扩充版重新出版)。
[15] Mitchell,D.H.(1984)。使用功能评估专家和新手奥赛罗游戏中的位置。伊利诺伊州埃文斯顿西北大学硕士论文。
[16] Quinlan,J.R.(1983年)。学习有效的分类程序及其在国际象棋结束游戏中的应用。作者:R.S.Michalski、J.G.Carbonell和T.M.Mitchell(编辑),机器学习。加利福尼亚州帕洛阿尔托:蒂奥加。
[17] Robbins,H.&Monro,S.(1951年)。一种随机近似方法。《数理统计年鉴》,22 400-407·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[18] Rumelhart,D.E.、Hinton,G.E.和Williams,R.J.(1986年)。通过错误传播学习内部表示。作者:D.Rumelhart&J.McClelland(编辑),《并行分布式处理》。第1卷。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1369.68284号
[19] Samuel,A.(1959年)。使用跳棋游戏进行机器学习的一些研究。IBM研发杂志,3 210-229·doi:10.1147/rd.33.0210
[20] Samuel,A.(1967年)。使用跳棋游戏进行机器学习的一些研究,II?最近的进展。IBM研发杂志,11 601-617·doi:10.147/rd.116.0601
[21] Sutton,R.S.(1984)。强化学习中的时间学分分配。马萨诸塞大学计算机与信息科学系博士学位论文,阿默斯特。
[22] 萨顿,R.S.(1988)。学习通过时间差异的方法进行预测。机器学习,3 9-44。
[23] Tesauro,G.和Sejnowski,T.J.(1989)。学习双陆棋的并行网络。人工智能,39 357-390·Zbl 0678.68087号 ·doi:10.1016/0004-3702(89)90017-9
[24] Tesauro,G.(1989)。通过比较训练学习专家偏好。D.Touretzky(编辑),《神经信息处理进展》,199-106。
[25] Tesauro,G.(1990年)。Neurogammon:一个神经网络双陆棋程序。国际JCNN会议记录III,33-39。
[26] Utgoff,P.E.&Clouse,J.A.(1991年)。两种培训信息用于评估功能培训。发表于:AAAI-91会议记录。
[27] Vapnik,V.N.和Chervonenkis(1971)。关于事件相对频率与其概率的一致收敛性。理论探索。申请。,16 264-280. ·Zbl 0247.60005号 ·数字对象标识代码:10.1137/1116025
[28] Widrow,B.等人(1976年)。LMS自适应滤波器的平稳和非平稳学习特性。IEEE会议记录,64 1151-1162·doi:10.1109/PROC.1976.10286
[29] Zadeh,N.和Kobliska,G.(1977年)。论双陆棋中的最佳加倍。管理科学,23 853-858·Zbl 0372.90130号 ·doi:10.1287/mnsc.23.853
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。