A Generalized Natural Actor-Critic Algorithm

Morimura, Tetsuro; Uchibe, Eiji; Yoshimoto, Junichiro; Doya, Kenji

一种广义自然行动者批判算法

的一部分神经信息处理系统进展22（NIPS 2009）

Biptex公司元数据纸类补充的

作者

森村哲郎、内部英治、吉本俊一郎、多亚贤治

摘要

策略梯度强化学习（RL）算法在寻求平均回报最大化的随机策略方面受到了广泛关注。此外，基于自然梯度（NG）概念的扩展显示出良好的学习效率，因为这些都考虑了任务的指标。尽管有两个候选指标，Kakades-Fisher信息矩阵（FIM）和Morimuras FIM，但所有带有NG的RL算法都遵循Kakades方法。本文通过对两个FIM进行线性插值来描述广义自然梯度（gNG），并基于估计函数的理论，提出了一种有效的gNG学习实现方法，即广义自然Actor-Critic（gNAC）。gNAC算法包含一个近似最优的辅助函数，以减少gNG估计的方差。有趣的是，只要适当选择插值参数，gNAC可以被视为当前最先进NAC算法的自然扩展。数值实验表明，所提出的gNAC算法能够有效地估计gNG，性能优于NAC算法。

一种广义自然行动者批判算法

作者

摘要

名称更改策略