×

技术更新:最小二乘时差学习。 (英语) Zbl 1014.68072号

摘要:(\text{TD}(\lambda)\)是大型MDP中用于近似策略计算的一个流行算法家族\(\text{TC}(\lambda)\)通过在每次观察到的转换后增量更新值函数来工作。它有两个主要缺点:它可能会导致数据使用效率低下,并且需要用户手动调整步长计划以获得良好的性能。对于线性值函数近似和(λ=0)的情况,Bradtke和Barto的最小二乘TD(LSTD)算法消除了所有步长参数,提高了数据效率。
本文从三个方面更新了布拉德克和巴托的工作。首先,它给出了LSTD算法的一个更简单的推导。其次,它从\(\lambda=0\)推广到\(\lambda\)的任意值;在λ=1的极值处,得到的新算法是监督线性回归的一种实用的增量公式。第三,它对基于模型的强化学习技术LSTD提出了一种新颖而直观的解释。

MSC公司:

68问题32 计算学习理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部