×

代数强化学习。使用术语泛化进行关系强化学习的假设归纳。 (英语) Zbl 1321.68410号

Martí-Oliet,Narciso(编辑)等人,《逻辑、重写和并发》。纪念何塞·梅塞盖尔65岁生日的文章。查姆:施普林格(ISBN 978-3-319-23164-8/pbk;978-3-3169-23165-5/电子书)。计算机科学讲座笔记9200,562-579(2015)。
摘要:TG关系强化学习算法从感知样本中构建一阶决策树。为此,它从统计学上检验了关于可能与决策相关的状态属性的假设的重要性。假设的生成受到人工指定的先验约束的限制。本文提出了代数强化学习(ARL),通过使用状态表示的重写理论来消除这种情况,从而能够通过术语泛化直接从感知样本中归纳假设ACUOS公司系统。我们比较了有泛化和无泛化的ARL的实验结果,表明泛化与无泛化学习的树相比,对学习树的收敛速度有积极影响,并降低了学习树的复杂性。
关于整个系列,请参见[Zbl 1319.68011号].

MSC公司:

68T05型 人工智能中的学习和自适应系统
2012年第68季度 语法和重写系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 萨顿,RS;Barto,AG,《强化学习:简介》,IEEE Trans。神经网络。,9, 5, 1054-1054 (1998) ·doi:10.1109/TNN.1998.712192
[2] 季洛斯基,S。;De Raedt,L。;Driessens,K.,关系强化学习,马赫。学习。,43, 1-2, 7-52 (2001) ·Zbl 0988.68088号 ·doi:10.1023/A:1007694015589
[3] Tadepalli,P.,Givan,R.,Driessens,K.:关系强化学习:概述。摘自:2004年ICML关系强化学习研讨会论文集(2004年)
[4] Van Otterlo,M.:关系域强化学习调查(2005)
[5] 德莱森斯,K。;Ramon,J。;Blockeel,H。;宾夕法尼亚州Flach;De Raedt,L.,通过使用增量一阶决策树学习器加速关系强化学习,机器学习:ECML 2001,97-108(2001),海德堡:斯普林格·Zbl 1007.68567号 ·doi:10.1007/3-540-44795-4_9
[6] 德莱森斯,K。;Sammut,C。;Webb,GI,关系强化学习,机器学习百科全书,857-862(2010),纽约:Springer,纽约
[7] Alpunte,M。;埃斯科瓦尔,S。;梅塞盖尔,J。;奥杰达,P。;Hanus,M.,模块化方程泛化算法,基于逻辑的程序合成与转换,24-39(2009),海德堡:施普林格·Zbl 1185.68219号 ·doi:10.1007/978-3-642-00515-2_3
[8] Alpunte,M。;埃斯科瓦尔,S。;Espert,J。;梅塞盖尔,J。;费尔梅,E。;Leite,J.,ACUOS:一个具有子类型和继承的模块化acu泛化系统,人工智能逻辑,573-581(2014),海德堡:施普林格,海德堡·Zbl 1432.68422号
[9] Clavel,M。;杜兰,F。;艾克,S。;林肯,P。;新墨西哥州马丁·奥列特。;梅塞盖尔,J。;Talcott,C.,《关于莫德的一切——高性能逻辑框架》,119-129(2007),海德堡:施普林格,海德伯格·Zbl 1115.68046号 ·doi:10.1007/978-3-540-71999-15
[10] Meseguer,J.,《重写逻辑的二十年》,J.Log。代数。程序。,81, 7-8, 721-781 (2012) ·Zbl 1267.03043号 ·doi:10.1016/j.jlap.2012.06.003
[11] Belzner,L.:重写逻辑中的动作编程。TPLP 13(4-5-在线增补)(2013年)
[12] 贝尔兹纳,L。;Kühn,E。;Pugliese,R.,《自治并发系统中的可验证决策》,协调模型和语言,17-32(2014),海德堡:施普林格,海德伯格·doi:10.1007/978-3-662-43376-82
[13] 贝尔兹纳,L。;Endriss,美国。;Leite,J.,重写逻辑中关系MDP的值迭代,STAIRS 2014-第七届欧洲起步人工智能研究者研讨会论文集,捷克共和国布拉格,2014年8月18-22日,61-70(2014),荷兰:IOS出版社,荷兰
[14] Wirsing,M。;Knapp,A.,面向对象软件工程的形式化方法,Theor。计算。科学。,285, 2, 519-560 (2002) ·Zbl 1001.68024号 ·doi:10.1016/S0304-3975(01)00367-X
[15] Wirsing,M。;邓克,G。;塔尔科特,CL;Poggio,A。;Briesemeister,L.,《软约束的重写逻辑框架》,Electr。注释Theor。计算。科学。,176, 4, 181-197 (2007) ·Zbl 1279.68124号 ·doi:10.1016/j.entcs.2007.06.015
[16] 贝尔兹纳,L。;德尼古拉,R。;Vandin,A。;威辛,M。;伊达,S。;梅塞盖尔,J。;Ogata,K.,《重写逻辑、规范、代数和软件中的推理(on)服务组件集成》,188-211(2014),海德堡:施普林格·doi:10.1007/978-3-642-54624-2-10
[17] Boronat,A。;Knapp,A。;梅塞盖尔,J。;Wirsing,M。;Corradini,A。;美国蒙塔纳里,什么是多模型语言?,《代数发展技术的最新趋势》,71-87(2009),海德堡:斯普林格·兹比尔1253.68225 ·doi:10.1007/978-3-642-03429-96
[18] 埃克哈特,J。;穆尔鲍尔,T。;梅塞盖尔,J。;Wirsing,M.,《语义、分布式实现和KLAIM模型的形式化分析》,科学杂志maude。计算。程序。,99, 24-74 (2015) ·doi:10.1016/j.scico.2014.10.001
[19] 埃克哈特,J。;穆尔鲍尔,T。;阿尔图尔基,M。;梅塞盖尔,J。;Wirsing,M。;de Lara,J。;Zisman,A.,《通过正式模式在拒绝服务攻击下的稳定可用性》,FASE 2012,78-93(2012),海德堡:施普林格
[20] Blockeel,H。;雷德,LD,一阶逻辑决策树的自顶向下归纳法,Artif。智力。,101, 12, 285-297 (1998) ·Zbl 0909.68034号 ·doi:10.1016/S0004-3702(98)00034-4
[21] Blockeel,H。;De Raedt,L。;季洛斯基,S。;Lavrać,N.,ILP中的前瞻和离散化,归纳逻辑编程,77-84(1997),海德堡:施普林格·doi:10.1007/3540635149_36
[22] Castillo,L.P.,Wrobel,S.:多关系学习中减少爬山搜索近视的方法比较研究。摘自:《第二十届第一届机器学习国际会议论文集》,第19页。ACM(2004)
[23] 罗素,SJ;Norvig,P.,《人工智能-现代方法》(2010),纽约:培生教育,纽约·Zbl 0835.68093号
[24] Neubert,S.:结合增量决策树和泛化解决关系强化学习问题。德国慕尼黑大学路德维希·马克西米利安硕士论文(2014)
[25] 昆兰,JR,C 4.5:机器学习课程(1993),圣马特奥:摩根考夫曼,圣马特奥
[26] Shannon,CE,通信数学理论,ACM SIGMOBILE移动计算机。Commun公司。第5、1、3-55版(2001年)·数字对象标识代码:10.1145/584091.584093
[27] Driessens,K.,Ramon,J.:关系强化学习的基于关系实例的回归。收录于:ICML,第123-130页(2003年)
[28] Gärtner,T。;德莱森斯,K。;Ramon,J。;Horváth,T。;Yamamoto,A.,关系强化学习的图核和高斯过程,归纳逻辑编程,146-163(2003),海德堡:施普林格,海德堡·Zbl 1263.68131号 ·doi:10.1007/978-3-540-39917-9_11
[29] Boutiler,C。;Reiter,R。;价格,B。;Nebel,B.,一阶MDP的符号动态编程,IJCAI,690-700(2001),西雅图:摩根考夫曼
[30] 王,C。;Joshi,S。;Khardon,R.,关系mdp的一阶决策图,J.Artif。智力。决议,31,431-472(2008)·Zbl 1182.68271号
[31] Sanner,S.,Kersting,K.:一阶pomdps的符号动态编程(2010)
[32] Rodrigues,C.、Gérard,P.、Rouveirol,C.、Soldano,H.:关系动作规则的增量学习。2010年第九届机器学习与应用国际会议(ICMLA),第451-458页。IEEE(2010)
[33] Khot,T.、Natarajan,S.、Kersting,K.、Shavlik,J.:通过函数梯度提升学习马尔可夫逻辑网络。2011年IEEE第11届数据挖掘国际会议(ICDM),第320-329页。IEEE(2011)
[34] Hölzl,M。;Gabor,T。;Wirsing,M。;Hölzl,M。;科赫,N。;Mayer,P.,《意识和适应的推理和学习》,《集体自主系统的软件工程:ASCENS项目的结果》,249-290(2015),海德堡:斯普林格
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。