Steven J.Bradtke。;安德鲁·G·巴托。 时间差分学习的线性最小二乘算法。转载自《机器学习》22,第1-3期(1996年)。 (英语) Zbl 1099.93534号 Kaelbling,Leslie Pack(编辑),强化学习的最新进展。转载自《机器学习》22,第1-3期(1996年)。马萨诸塞州波士顿:Kluwer学术出版社(ISBN 0-7923-9705-3/hbk)。33-57 (1996). 总结:我们介绍了两种新的基于线性最小二乘函数逼近理论的时间差分(TD)算法。我们定义了一种称为最小二乘TD(LS TD)的算法,对于该算法,我们证明了当它与可调参数中的线性函数逼近器一起使用时,概率一收敛。然后我们定义了该算法的递归版本,递归最小二乘TD(RLS-TD)。尽管这些新的TD算法比Suttonlsquos TD(lambda)算法需要更多的计算量,但从统计意义上讲,它们更有效,因为它们从训练经验中提取了更多信息。我们描述了一个仿真实验,在一个马尔可夫预测问题中,通过RLS-TD可以显著提高学习率。为了量化这种改进,我们引入了马尔可夫链的TD误差方差,并通过实验得出TD算法的收敛速度与(sigma{TD})线性相关的结论。除了更快地收敛外,LS TD和RLS TD没有控制参数,例如学习速率参数,从而消除了因参数选择不当而导致性能不佳的可能性。有关整个系列,请参见[Zbl 0948.00502号]. 引用于37文件 MSC公司: 93E24型 随机控制系统的最小二乘法及其相关方法 93E35型 随机学习与自适应控制 90立方厘米 马尔可夫和半马尔可夫决策过程 关键词:强化学习;马尔可夫决策问题;时间差异方法;租赁广场 PDF格式BibTeX公司 XML格式引用 \textit{S.J.Bradtke}和\textit{A.G.Barto},in:强化学习的最新进展。马萨诸塞州波士顿:Kluwer学术出版社。33——57(1996年;Zbl 1099.93534) 全文: 内政部