Evolutionary Function Approximation for Reinforcement Learning

Shimon Whiteson; Peter Stone

时间差分方法有理论依据和经验解决强化学习问题的有效方法。在大多数现实世界的强化学习任务中，TD方法需要表示值函数的函数逼近器。然而，使用函数逼近器需要手动确定代表性决策。本文调查进化函数逼近，一种新颖的方法自动选择函数逼近器表示实现高效的个人学习。这个方法进化能够更好地学习。我们提供了一个进化函数的完全实现实例化结合神经进化优化NEAT的近似技术，Q-learning是一种流行的TD方法。产生的结果NEAT+Q算法自动发现有效表示用于神经网络函数逼近器。本文还介绍了在线进化计算，提高了在线借用选择的进化计算性能TD方法中用于选择个人行动和使用的机制它们在进化计算中选择用于评估的策略。我们通过扩展的实证研究评估了这些贡献两个领域：1）山地车任务，标准强化神经网络函数逼近器的学习基准之前表现不佳，2）服务器作业调度从自主领域引出的大概率域计算。结果表明，进化函数近似可以显著提高TD的性能方法和在线进化计算可以显著地改进进化方法。本文还介绍了其他能够洞察哪些因素可以构成神经网络的测试函数逼近在实践中很困难。

用于强化学习的进化函数逼近

摘要