的一部分神经信息处理系统进展22(NIPS 2009)
森村哲郎、内部英治、吉本俊一郎、多亚贤治
策略梯度强化学习(RL)算法在寻求平均回报最大化的随机策略方面受到了广泛关注。此外,基于自然梯度(NG)概念的扩展显示出良好的学习效率,因为这些都考虑了任务的指标。尽管有两个候选指标,Kakades-Fisher信息矩阵(FIM)和Morimuras FIM,但所有带有NG的RL算法都遵循Kakades方法。本文通过对两个FIM进行线性插值来描述广义自然梯度(gNG),并基于估计函数的理论,提出了一种有效的gNG学习实现方法,即广义自然Actor-Critic(gNAC)。gNAC算法包含一个近似最优的辅助函数,以减少gNG估计的方差。有趣的是,只要适当选择插值参数,gNAC可以被视为当前最先进NAC算法的自然扩展。数值实验表明,所提出的gNAC算法能够有效地估计gNG,性能优于NAC算法。
在电子诉讼程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。