×

图核和高斯过程用于关系强化学习。 (英语) Zbl 1103.68681号

概述:RRL是一个基于关系状态-动作空间中Q学习的关系强化学习系统。它旨在使代理能够学习如何在没有常量元组自然表示的环境中进行操作。对于关系强化学习,用于近似状态-动作对及其所谓的Q值之间的映射的学习算法必须非常可靠,并且必须能够处理状态-动作配对的关系表示。在本文中,我们研究了使用高斯过程来近似状态-作用对的Q值。为了在关系设置中使用高斯过程,我们建议将图核作为状态-动作对之间的协方差函数。高斯过程的标准预测机制需要矩阵反演,当核矩阵的秩较低时,矩阵反演可能会变得不稳定。这些不稳定性可以通过使用QR系数来避免。这使得算法的性能更好、更稳定,并且有更高效的增量更新机制。在方块世界和俄罗斯方块游戏中进行的实验表明,具有图核的高斯过程可以与回归树和基于实例的回归作为RRL的泛化算法竞争,并且通常可以改进。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Barnett,S.(1979年)。工程师和科学家矩阵方法。麦格劳-希尔·Zbl 0507.15001号
[2] Cortes,C.、Haffner,P.和Mohri,M.(2003)。正定有理核。在第16届计算学习理论年会和第7届内核研讨会的会议记录中·Zbl 1274.68302号
[3] Dearden,R.、Friedman,N.和Russell,S.(1998年)。贝叶斯Q学习。《AAAI-98/IAAI-98会议记录》(第761-768页)。
[4] Demaine,E.、Hohenberger,S.和Liben-Nowell,D.(2002)。俄罗斯方块很难,甚至很难接近。技术报告MIT-LCS-TR-865,马萨诸塞理工学院,波士顿·Zbl 1276.68081号
[5] Deshpande,M.、Kuramochi,M.和Karypis,G.(2002年)。结构分类的自动化方法。第二届ACM SIGKDD生物信息学数据挖掘研讨会论文集·Zbl 1048.68733号
[6] Diestel,R.(2000)。图论。施普林格出版社·Zbl 0945.05002号
[7] Dietterich,T.和Wang,X.(2002)。通过支持向量进行批量值函数近似。T.G.Dietterich、S.Becker和Z.Ghahramani(编辑),《神经信息处理系统进展》,第14卷,马萨诸塞州剑桥,麻省理工学院出版社。
[8] Driessens,K.和Díeroski,S.(2002年)。在关系强化学习中整合实验和指导。C.Sammut和A.Hoffmann(编辑),《第十九届机器学习国际会议论文集》(第115-122页)。摩根考夫曼出版社。
[9] Driessens,K.和Díeroski,S.(2004)。将指导融入关系强化学习。机器学习,57271–304·Zbl 1079.68084号 ·doi:10.1023/B:MACH.0000039779.47329.3a
[10] Driessens,K.和Ramon,J.(2003)。基于关系实例的回归用于关系强化学习。《第二十届机器学习国际会议论文集》(第123–130页)。AAAI出版社·Zbl 1263.68131号
[11] Driessens,K.、Ramon,J.和Blockel,H.(2001)。通过使用增量一阶决策树学习器加快关系强化学习。L.De Raedt和P.Flach(编辑),《第13届欧洲机器学习会议论文集》,第2167卷,《人工智能讲义》(第97–108页)。斯普林格·弗拉格·Zbl 1007.68567号
[12] Díeroski,S.、De Raedt,L.和Blockeel,H.(1998)。关系强化学习。第十五届机器学习国际会议论文集(第136-143页)。摩根·考夫曼。
[13] Engel,Y.、Mannor,S.和Meir,R.(2003)。贝叶斯与贝尔曼:时间差分学习的高斯过程方法。《第二十届机器学习国际会议论文集》(ICML 2003)(第154-161页)。摩根·考夫曼。
[14] Gärtner,T.(2002)。图的指数核和几何核。在NIPS非真实数据研讨会:非矢量数据建模原理。
[15] Gärtner,T.(2003)。结构化数据的内核调查。SIGKDD探索,5(1),49-58·doi:10.1145/959242.959248
[16] Gärtner,T.、Driessens,K.和Ramon,J.(2003a)。图核和高斯过程用于关系强化学习。《归纳逻辑编程》,第13届国际会议,ILP 2003,《计算机科学讲义》第2835卷,第146-163页。斯普林格·Zbl 1263.68131号
[17] Gärtner,T.、Flach,P.和Wrobel,S.(2003b)。关于图核:硬度结果和有效替代。M.W.B.Schölkopf(Ed.),第16届计算学习理论年会和第7届内核研讨会论文集(129-143)·Zbl 1274.68312号
[18] Gibbs,M.(1997)。回归和分类的贝叶斯-高斯过程。剑桥大学博士论文。
[19] Golub,G.H.和Van Loan,C.F.(1996年)。矩阵计算。约翰·霍普金斯数学科学系列。约翰霍普金斯大学出版社。
[20] Graepel,T.(2002)。带核的PAC-Baysian模式分类。柏林大学博士论文·Zbl 1149.68412号
[21] Horvath,T.、Gärtner,T.和Wrobel,S.(2004)。预测图挖掘的循环模式核。《知识发现和数据挖掘国际会议论文集》。
[22] Imrich,W.和Klavíar,S.(2000年)。产品图:结构和识别。约翰·威利·Zbl 0963.05002号
[23] Kaelbling,L.、Littman,M.和Moore,A.(1996年)。强化学习:一项调查。《人工智能研究杂志》,4237-285。
[24] Kashima,H.和Inokuchi,A.(2002年)。图形分类的内核。在ICDM主动采矿研讨会上。
[25] Kashima,H.、Tsuda,K.和Inokuchi,A.(2003)。标记图之间的边缘化核。第20届机器学习国际会议论文集。
[26] Korte,B.和Vygen,J.(2002年)。组合优化:理论与算法。施普林格出版社·兹比尔1002.90046
[27] Kuramochi,M.和Karypis,G.(2001年)。频繁的子图发现。IEEE数据挖掘国际会议论文集。
[28] MacKay,D.(1997年a)高斯过程简介。A可从获取http://wol.ra.phy.cam.ac.uk/mackay . ·Zbl 0936.68081号
[29] 麦凯,D.J.C.(1997年b)。高斯过程简介。可在网址:http://wol.ra.phy.cam.ac.uk/macay . ·Zbl 0936.68081号
[30] Mitchell,T.(1997)。机器学习。麦格劳-希尔·Zbl 0913.68167号
[31] Ormoneit,D.和Sen,S.(2002年)。基于内核的强化学习。机器学习,49,161–178·Zbl 1014.68069号 ·doi:10.1023/A:1017928328829
[32] Rasmussen,C.E.和Kuss,M.(2004)。强化学习中的高斯过程。神经信息处理系统进展,第16卷。麻省理工学院出版社。
[33] Rifkin,R.M.(2002)。一切旧的又是新的:重新审视机器学习的历史方法。麻省理工学院博士论文。
[34] Saunders,C.、Gammerman,A.和Vovk,v.(1998)。双变量岭回归学习算法。第十五届机器学习国际会议论文集。摩根·考夫曼。
[35] Schaal,S.、Atkeson,C.G.和Vijayakumar,S.(2000)。具有局部加权统计学习的实时机器人学习。《IEEE机器人与自动化国际会议论文集》(第288-293页)。IEEE出版社,新泽西州皮斯卡塔韦。
[36] Schölkopf,B.和Smola,A.J.(2002年)。用内核学习。麻省理工学院出版社·Zbl 1019.68094号
[37] Smart,W.D.和Kaelbling,L.P.(2000)。在连续空间中进行强化学习。第17届机器学习国际会议论文集(第903–910页)。摩根·考夫曼。
[38] Sutton,R.和Barto,A.(1998年)。强化学习:简介。马萨诸塞州剑桥:麻省理工学院出版社。
[39] Vapnik,V.(1995)。统计学习理论的本质。斯普林格·弗拉格·Zbl 0833.62008号
[40] Watkins,C.(1989)。从延迟的奖励中学习。剑桥大学国王学院博士论文。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。