文件Zbl 1466.68067-zbMATH Open

Anna Harutyunyan;马克·贝勒马尔（Marc G.Bellemare）。;汤姆·斯特普顿;雷米·穆诺斯

\（\text{Q}（\lambda）\），带非策略更正。（英语） Zbl 1466.68067号

Ortner，Ronald（编辑）等人，《算法学习理论》。第27届国际会议，2016年ALT，意大利巴里，2016年10月19-21日，会议记录。查姆：斯普林格。勒克特。注释计算。科学。9925, 305-320 (2016).

小结：我们提出并分析了一种非政策性多步骤时间差分学习的替代方法，其中非政策性回报在报酬方面用当前的Q函数进行校正，而不是在转移概率方面用目标政策进行校正。我们证明，在一定条件下，这种近似修正对于政策评估和控制中的非政策收敛都是足够的。这些条件将目标策略和行为策略之间的距离、合格性跟踪参数和折扣因子联系起来，并将非策略中的基本权衡形式化（text{TD}（lambda））。我们在连续状态控制任务中实证地说明了这种理论关系。
关于整个系列，请参见[Zbl 1346.68016号].

引用于10文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Bellman，R.：动态编程。普林斯顿大学出版社，普林斯顿（1957）·兹伯利0077.13605
[2]	Bertsekas，D.P.，Tsitsiklis，J.N.：神经动力学编程。雅典娜科学，贝尔蒙特（1996）·Zbl 0924.68163号
[3]	Hallak，A.、Tamar，A.、Munos，R.、Mannor，S.：广义强调时间差异学习：偏差-方差分析（2015）。arXiv:1509.05172
[4]	Kearns，M.J.，Singh，S.P.：时间差异更新的偏差-方差误差界限。摘自：计算学习理论会议，第142-147页（2000年）
[5]	Mahmood，A.R.，Sutton，R.S.：基于线性计算复杂性加权重要性抽样的非策略学习。参加：人工智能不确定性会议（2015）
[6]	Mahmood，A.R.，Huizhen，Y.，White，M.，Sutton，R.S.：强调时间差异学习。arXiv预印本arXiv:1507.01569（2015）
[7]	Munos，R.、Stepleton，T.、Harutyunyan，A.、Bellemare，M.G.：安全高效的非政策强化学习。In:神经信息处理系统进展（2016）·Zbl 1466.68067号
[8]	Peng，J.，Williams，R.J.：增量多步骤q学习。机器。学习。22（1-3），283-290（1996）
[9]	Precup，D.、Sutton，R.S.、Singh，S.：非保单政策评估的资格痕迹。参加：机器学习国际会议（2000年）
[10]	Precup，D.，Sutton，R.S.，Dasgupta，S.：使用函数近似的非政策时间差学习。参加：机器学习国际会议（2001年）
[11]	Puterman，M.L.：《马尔可夫决策过程：离散随机动态规划》，第1版。威利，纽约（1994）·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[12]	Randlöv，J.，Alström，P.：通过强化学习和塑造来学习驾驶自行车。参加：机器学习国际会议（1998年）
[13]	Rummery，G.A.，Niranjan，M.：使用连接主义系统的在线q学习。剑桥大学工程系技术报告（1994年）
[14]	Singh，S.，Dayan，P.：时间差分学习的分析均方误差曲线。机器。学习。32(1), 5–40 (1998) ·Zbl 0901.68168号 ·doi:10.1023/A:1007495401240
[15]	Sutton，R.S.：通过时间差异的方法学习预测。机器。学习。3（1），9-44（1988）
[16]	Sutton，R.S.：强化学习中的泛化：使用稀疏粗编码的成功示例。In:神经信息处理系统进展（1996）
[17]	Sutton，R.S.，Barto，A.G.：强化学习：简介。剑桥大学出版社，剑桥（1998）
[18]	Sutton，R.S.、Mahmood，A.R.、Precup，D.、van Hasselt，H.：新q（\[\λ\])具有临时前瞻性和蒙特卡罗等价性。摘自：机器学习国际会议，第568–576页（2014年）
[19]	van Hasselt，H.P.：强化学习的见解：时间差分学习算法的形式分析和实证评估。乌得勒支大学博士论文，2011年1月
[20]	van Seijen，H.，Sutton，R.S.：真正的在线TD（\[\λ\]). 摘自：机器学习国际会议，第692-700页（2014年）
[21]	van Seijen，H.，van Hasselt，H.、Whiteson，S.、Wiering，M.：预期Sarsa的理论和实证分析。摘自：《自适应动态规划和强化学习》，第177-184页。IEEE（2009）·doi:10.1109/ADPRL.2009.4927542
[22]	Watkins，C.J.C.H.，Dayan，P.：Q学习。机器。学习。8, 272–292 (1992) ·Zbl 0773.68062号
[23]	Watkins，C.J.C.H.：从延迟奖励中学习。剑桥国王学院博士论文（1989年）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

\（\text{Q}（\lambda）\），带非策略更正。（英语） Zbl 1466.68067号

MSC公司：

参考文献：

示例

领域

操作员

\（\text{Q}（\lambda）\），带非策略更正。 （英语） Zbl 1466.68067号

MSC公司：

参考文献：

\（\text{Q}（\lambda）\），带非策略更正。（英语） Zbl 1466.68067号