贾斯汀·博扬。 技术更新:最小二乘时差学习。 (英语) Zbl 1014.68072号 机器。学习。 49,编号2-3,233-246(2002). 摘要:(\text{TD}(\lambda)\)是大型MDP中用于近似策略计算的一个流行算法家族\(\text{TC}(\lambda)\)通过在每次观察到的转换后增量更新值函数来工作。它有两个主要缺点:它可能会导致数据使用效率低下,并且需要用户手动调整步长计划以获得良好的性能。对于线性值函数近似和(λ=0)的情况,Bradtke和Barto的最小二乘TD(LSTD)算法消除了所有步长参数,提高了数据效率。本文从三个方面更新了布拉德克和巴托的工作。首先,它给出了LSTD算法的一个更简单的推导。其次,它从\(\lambda=0\)推广到\(\lambda\)的任意值;在λ=1的极值处,得到的新算法是监督线性回归的一种实用的增量公式。第三,它对基于模型的强化学习技术LSTD提出了一种新颖而直观的解释。 引用于22文件 MSC公司: 68问题32 计算学习理论 关键词:基于模型的强化学习技术 PDF格式BibTeX公司 XML格式引用 \textit{J.A.Boyan},马赫。学习。49,编号2--3,233--246(2002;Zbl 1014.68072) 全文: 内政部