无学习率的时差更新

的一部分神经信息处理系统的进展20(NIPS 2007)

Biptex公司 元数据 纸类 补充的

作者

Marcus Hutter、Shane Legg

摘要

我们从统计学原理导出了时间差分学习方程。具体来说,我们从变分原理开始,然后自举法生成贴现状态值估计的更新规则。所得方程类似于具有合格轨迹的时间差分学习的标准方程,即所谓的TD(λ),但它缺少特定于学习速率的参数α。在这个自由参数的位置,现在有一个特定于每个状态转换的学习速率方程。我们针对TD(λ)对这种新的学习规则进行了实验测试,发现它在各种设置中都能提供卓越的性能。最后,我们对如何将新的时间差分算法扩展到强化学习进行了一些初步研究。为此,我们将更新方程与Watkins的Q(λ)和Sarsa(λ。