文件Zbl 1099.93534-zbMATH Open

时间差分学习的线性最小二乘算法。转载自《机器学习》22，第1-3期（1996年）。（英语） Zbl 1099.93534号

Kaelbling，Leslie Pack（编辑），强化学习的最新进展。转载自《机器学习》22，第1-3期（1996年）。马萨诸塞州波士顿：Kluwer学术出版社（ISBN 0-7923-9705-3/hbk）。33-57 (1996).

总结：我们介绍了两种新的基于线性最小二乘函数逼近理论的时间差分（TD）算法。我们定义了一种称为最小二乘TD（LS TD）的算法，对于该算法，我们证明了当它与可调参数中的线性函数逼近器一起使用时，概率一收敛。然后我们定义了该算法的递归版本，递归最小二乘TD（RLS-TD）。尽管这些新的TD算法比Suttonlsquos TD（lambda）算法需要更多的计算量，但从统计意义上讲，它们更有效，因为它们从训练经验中提取了更多信息。我们描述了一个仿真实验，在一个马尔可夫预测问题中，通过RLS-TD可以显著提高学习率。为了量化这种改进，我们引入了马尔可夫链的TD误差方差，并通过实验得出TD算法的收敛速度与（sigma{TD}）线性相关的结论。除了更快地收敛外，LS TD和RLS TD没有控制参数，例如学习速率参数，从而消除了因参数选择不当而导致性能不佳的可能性。
有关整个系列，请参见[Zbl 0948.00502号].

引用于37文件

MSC公司：

93E24型	随机控制系统的最小二乘法及其相关方法
93E35型	随机学习与自适应控制
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

强化学习;马尔可夫决策问题;时间差异方法;租赁广场

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

时间差分学习的线性最小二乘算法。转载自《机器学习》22，第1-3期（1996年）。（英语） Zbl 1099.93534号

MSC公司：

关键词：

示例

领域

操作员

时间差分学习的线性最小二乘算法。转载自《机器学习》22，第1-3期（1996年）。 （英语） Zbl 1099.93534号

MSC公司：

关键词：

时间差分学习的线性最小二乘算法。转载自《机器学习》22，第1-3期（1996年）。（英语） Zbl 1099.93534号