Successor Features Combine Elements of Model-Free and Model-based Reinforcement Learning

Lucas Lehnert; Michael L. Littman

强化学习中的一个关键问题是智能代理如何在不同的输入中概括知识。通过对不同输入进行泛化，为一个输入学习的信息可以立即重用，以改进对另一个输入的预测。重用信息允许代理使用较少的数据计算最佳决策策略。状态表示是泛化过程的关键要素，它将高维输入空间压缩为低维潜在状态空间。本文分析了不同潜在状态空间的特性，从而在基于模型的强化学习和无模型强化学习之间建立了新的联系。后继特征预测未来观察的频率，在基于模型的学习和无模型学习之间形成联系：学习预测未来预期的回报结果，这是基于模型的代理的一个关键特征，等同于学习后继特征。学习后继特征是时差学习的一种形式，相当于学习预测单个策略的效用，这是无模型代理的一个特征。利用基于模型的强化学习和后继特征之间的联系，我们证明了预测未来奖励结果的表征在过渡和奖励的变化中具有普遍性。这个结果扩展了先前关于后继特征的工作，后继特征受限于固定的转换，并假设重新学习转移的状态表示。

后续特征结合了无模型和基于模型的强化学习的要素

摘要