×

时间差分学习的线性最小二乘算法。转载自《机器学习》22,第1-3期(1996年)。 (英语) Zbl 1099.93534号

Kaelbling,Leslie Pack(编辑),强化学习的最新进展。转载自《机器学习》22,第1-3期(1996年)。马萨诸塞州波士顿:Kluwer学术出版社(ISBN 0-7923-9705-3/hbk)。33-57 (1996).
总结:我们介绍了两种新的基于线性最小二乘函数逼近理论的时间差分(TD)算法。我们定义了一种称为最小二乘TD(LS TD)的算法,对于该算法,我们证明了当它与可调参数中的线性函数逼近器一起使用时,概率一收敛。然后我们定义了该算法的递归版本,递归最小二乘TD(RLS-TD)。尽管这些新的TD算法比Suttonlsquos TD(lambda)算法需要更多的计算量,但从统计意义上讲,它们更有效,因为它们从训练经验中提取了更多信息。我们描述了一个仿真实验,在一个马尔可夫预测问题中,通过RLS-TD可以显著提高学习率。为了量化这种改进,我们引入了马尔可夫链的TD误差方差,并通过实验得出TD算法的收敛速度与(sigma{TD})线性相关的结论。除了更快地收敛外,LS TD和RLS TD没有控制参数,例如学习速率参数,从而消除了因参数选择不当而导致性能不佳的可能性。
有关整个系列,请参见[Zbl 0948.00502号].

MSC公司:

93E24型 随机控制系统的最小二乘法及其相关方法
93E35型 随机学习与自适应控制
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部