文件Zbl 0772.68075-zbMATH Open

时差学习中的实际问题。（英语） Zbl 0772.68075号

机器。学习。 8，第3-4257-277号（1992年）.

摘要：本文研究了用于训练连接网络的时间差分方法，如Sutton（TD（lambda））算法，能否成功应用于复杂的现实问题。从一般理论角度确定并讨论了一些重要的实际问题。然后，在一个案例研究的背景下，对这些实际问题进行了检验，在该案例研究中，将TD（lambda）应用于从自演的结果中学习双陆棋游戏。这显然是该算法首次应用于复杂的非平凡任务。研究发现，在内置零知识的情况下，网络能够从头开始学习，以相当强的中间性能水平玩整个游戏，这明显优于传统商业程序，事实上，这超过了基于大量人类专家数据集训练的可比网络。这表明，TD学习在实践中的效果可能比基于当前理论的预期要好，这表明，对TD方法的进一步分析以及在其他复杂领域的应用可能值得研究。

引用于37文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

时间差分学习；神经网络；连接主义方法；功能发现；双陆棋

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Anderson，C.W.（1987）。使用多层联结主义表征进行策略学习。第四届机器学习国际研讨会论文集（第103-114页）。
[2]	Barto，A.G.、Sutton，R.S.和Anderson，C.W.（1983年）。类似神经元的自适应元件可以解决困难的学习控制问题。IEEE系统、人与控制论汇刊，13 835-846。
[3]	Berliner，H.（1977年）。BKG的评估经验？玩西洋双陆棋的程序。IJCAI会议记录（第428-433页）。
[4]	Berliner，H.（1979）。关于大领域评价函数的构建。国际JCAI会议记录（第53-55页）。
[5]	Blumer，A.、Ehrenfeucht，A.、Haussler，D.和Warmuth，M.（1989年）。可学习性和Vapnik-Chervonenkis维度。杰克，36 929-965·Zbl 0697.68079号 ·数字对象标识代码：10.1145/76359.76371
[6]	Christensen，J.&Korf，R.（1986年）。启发式评价函数的统一理论及其在学习中的应用。AAAI-86会议记录（第148-152页）。
[7]	Dayan，P.（1992）。TD（？）的收敛性。机器学习，8 341-362·Zbl 0773.68060号
[8]	Frey，P.W.（1986年）。提高游戏程序性能的算法策略。摘自：D.Farmer等人（编辑），《进化、游戏和学习》。阿姆斯特丹：北荷兰。
[9]	Griffith，A.K.（1974）。对应用于跳棋游戏的三种机器学习程序进行比较和评估。人工智能，5 137-148·Zbl 0279.68065号 ·doi:10.1016/0004-3702（74）90027-7
[10]	Holland，J.H.（1986）。逃避脆弱性：通用学习算法应用于并行规则系统的可能性。R.S.Michalski、J.G.Carbonell和T.M.Mitchell（编辑），《机器学习：人工智能方法》（第2卷）。加利福尼亚州洛斯阿尔托斯：Morgan Kaufmann。
[11]	Hornik，K.、Stinchcombe，M.和White，H.（1989年）。多层前馈网络是通用逼近器。神经网络，2359-366·Zbl 1383.92015年 ·doi:10.1016/0893-6080（89）90020-8
[12]	Lee，K.-F和Majahan，S.（1988年）。评价函数学习的模式分类方法。人工智能，36 1-25·Zbl 0644.68111号 ·doi:10.1016/0004-3702（88）90076-8
[13]	Magriel，P.（1976年）。双陆棋。纽约：泰晤士报。
[14]	Minsky，M.L.&Papert，S.A.（1969年）。感知器。马萨诸塞州剑桥：麻省理工学院出版社。（1988年作为扩充版重新出版）。
[15]	Mitchell，D.H.（1984）。使用功能评估专家和新手奥赛罗游戏中的位置。伊利诺伊州埃文斯顿西北大学硕士论文。
[16]	Quinlan，J.R.（1983年）。学习有效的分类程序及其在国际象棋结束游戏中的应用。作者：R.S.Michalski、J.G.Carbonell和T.M.Mitchell（编辑），机器学习。加利福尼亚州帕洛阿尔托：蒂奥加。
[17]	Robbins，H.&Monro，S.（1951年）。一种随机近似方法。《数理统计年鉴》，22 400-407·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[18]	Rumelhart，D.E.、Hinton，G.E.和Williams，R.J.（1986年）。通过错误传播学习内部表示。作者：D.Rumelhart&J.McClelland（编辑），《并行分布式处理》。第1卷。马萨诸塞州剑桥：麻省理工学院出版社·Zbl 1369.68284号
[19]	Samuel，A.（1959年）。使用跳棋游戏进行机器学习的一些研究。IBM研发杂志，3 210-229·doi:10.1147/rd.33.0210
[20]	Samuel，A.（1967年）。使用跳棋游戏进行机器学习的一些研究，II？最近的进展。IBM研发杂志，11 601-617·doi:10.147/rd.116.0601
[21]	Sutton，R.S.（1984）。强化学习中的时间学分分配。马萨诸塞大学计算机与信息科学系博士学位论文，阿默斯特。
[22]	萨顿，R.S.（1988）。学习通过时间差异的方法进行预测。机器学习，3 9-44。
[23]	Tesauro，G.和Sejnowski，T.J.（1989）。学习双陆棋的并行网络。人工智能，39 357-390·Zbl 0678.68087号 ·doi:10.1016/0004-3702（89）90017-9
[24]	Tesauro，G.（1989）。通过比较训练学习专家偏好。D.Touretzky（编辑），《神经信息处理进展》，199-106。
[25]	Tesauro，G.（1990年）。Neurogammon：一个神经网络双陆棋程序。国际JCNN会议记录III，33-39。
[26]	Utgoff，P.E.&Clouse，J.A.（1991年）。两种培训信息用于评估功能培训。发表于：AAAI-91会议记录。
[27]	Vapnik，V.N.和Chervonenkis（1971）。关于事件相对频率与其概率的一致收敛性。理论探索。申请。，16 264-280. ·Zbl 0247.60005号 ·数字对象标识代码：10.1137/1116025
[28]	Widrow，B.等人（1976年）。LMS自适应滤波器的平稳和非平稳学习特性。IEEE会议记录，64 1151-1162·doi:10.1109/PROC.1976.10286
[29]	Zadeh，N.和Kobliska，G.（1977年）。论双陆棋中的最佳加倍。管理科学，23 853-858·Zbl 0372.90130号 ·doi:10.1287/mnsc.23.853

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

时差学习中的实际问题。（英语） Zbl 0772.68075号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

时差学习中的实际问题。 （英语） Zbl 0772.68075号

MSC公司：

关键词：

参考文献：

时差学习中的实际问题。（英语） Zbl 0772.68075号