×

\(\text{Q}(\lambda)\),带非策略更正。 (英语) Zbl 1466.68067号

Ortner,Ronald(编辑)等人,《算法学习理论》。第27届国际会议,2016年ALT,意大利巴里,2016年10月19-21日,会议记录。查姆:斯普林格。勒克特。注释计算。科学。9925, 305-320 (2016).
小结:我们提出并分析了一种非政策性多步骤时间差分学习的替代方法,其中非政策性回报在报酬方面用当前的Q函数进行校正,而不是在转移概率方面用目标政策进行校正。我们证明,在一定条件下,这种近似修正对于政策评估和控制中的非政策收敛都是足够的。这些条件将目标策略和行为策略之间的距离、合格性跟踪参数和折扣因子联系起来,并将非策略中的基本权衡形式化(text{TD}(lambda))。我们在连续状态控制任务中实证地说明了这种理论关系。
关于整个系列,请参见[Zbl 1346.68016号].

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bellman,R.:动态编程。普林斯顿大学出版社,普林斯顿(1957)·兹伯利0077.13605
[2] Bertsekas,D.P.,Tsitsiklis,J.N.:神经动力学编程。雅典娜科学,贝尔蒙特(1996)·Zbl 0924.68163号
[3] Hallak,A.、Tamar,A.、Munos,R.、Mannor,S.:广义强调时间差异学习:偏差-方差分析(2015)。arXiv:1509.05172
[4] Kearns,M.J.,Singh,S.P.:时间差异更新的偏差-方差误差界限。摘自:计算学习理论会议,第142-147页(2000年)
[5] Mahmood,A.R.,Sutton,R.S.:基于线性计算复杂性加权重要性抽样的非策略学习。参加:人工智能不确定性会议(2015)
[6] Mahmood,A.R.,Huizhen,Y.,White,M.,Sutton,R.S.:强调时间差异学习。arXiv预印本arXiv:1507.01569(2015)
[7] Munos,R.、Stepleton,T.、Harutyunyan,A.、Bellemare,M.G.:安全高效的非政策强化学习。In:神经信息处理系统进展(2016)·Zbl 1466.68067号
[8] Peng,J.,Williams,R.J.:增量多步骤q学习。机器。学习。22(1-3),283-290(1996)
[9] Precup,D.、Sutton,R.S.、Singh,S.:非保单政策评估的资格痕迹。参加:机器学习国际会议(2000年)
[10] Precup,D.,Sutton,R.S.,Dasgupta,S.:使用函数近似的非政策时间差学习。参加:机器学习国际会议(2001年)
[11] Puterman,M.L.:《马尔可夫决策过程:离散随机动态规划》,第1版。威利,纽约(1994)·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[12] Randlöv,J.,Alström,P.:通过强化学习和塑造来学习驾驶自行车。参加:机器学习国际会议(1998年)
[13] Rummery,G.A.,Niranjan,M.:使用连接主义系统的在线q学习。剑桥大学工程系技术报告(1994年)
[14] Singh,S.,Dayan,P.:时间差分学习的分析均方误差曲线。机器。学习。32(1), 5–40 (1998) ·Zbl 0901.68168号 ·doi:10.1023/A:1007495401240
[15] Sutton,R.S.:通过时间差异的方法学习预测。机器。学习。3(1),9-44(1988)
[16] Sutton,R.S.:强化学习中的泛化:使用稀疏粗编码的成功示例。In:神经信息处理系统进展(1996)
[17] Sutton,R.S.,Barto,A.G.:强化学习:简介。剑桥大学出版社,剑桥(1998)
[18] Sutton,R.S.、Mahmood,A.R.、Precup,D.、van Hasselt,H.:新q(\[\])具有临时前瞻性和蒙特卡罗等价性。摘自:机器学习国际会议,第568–576页(2014年)
[19] van Hasselt,H.P.:强化学习的见解:时间差分学习算法的形式分析和实证评估。乌得勒支大学博士论文,2011年1月
[20] van Seijen,H.,Sutton,R.S.:真正的在线TD(\[\]). 摘自:机器学习国际会议,第692-700页(2014年)
[21] van Seijen,H.,van Hasselt,H.、Whiteson,S.、Wiering,M.:预期Sarsa的理论和实证分析。摘自:《自适应动态规划和强化学习》,第177-184页。IEEE(2009)·doi:10.1109/ADPRL.2009.4927542
[22] Watkins,C.J.C.H.,Dayan,P.:Q学习。机器。学习。8, 272–292 (1992) ·Zbl 0773.68062号
[23] Watkins,C.J.C.H.:从延迟奖励中学习。剑桥国王学院博士论文(1989年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。