一种广义自然行动者批判算法

的一部分神经信息处理系统进展22(NIPS 2009)

Biptex公司 元数据 纸类 补充的

作者

森村哲郎、内部英治、吉本俊一郎、多亚贤治

摘要

策略梯度强化学习(RL)算法在寻求平均回报最大化的随机策略方面受到了广泛关注。此外,基于自然梯度(NG)概念的扩展显示出良好的学习效率,因为这些都考虑了任务的指标。尽管有两个候选指标,Kakades-Fisher信息矩阵(FIM)和Morimuras FIM,但所有带有NG的RL算法都遵循Kakades方法。本文通过对两个FIM进行线性插值来描述广义自然梯度(gNG),并基于估计函数的理论,提出了一种有效的gNG学习实现方法,即广义自然Actor-Critic(gNAC)。gNAC算法包含一个近似最优的辅助函数,以减少gNG估计的方差。有趣的是,只要适当选择插值参数,gNAC可以被视为当前最先进NAC算法的自然扩展。数值实验表明,所提出的gNAC算法能够有效地估计gNG,性能优于NAC算法。