Derivatives of Logarithmic Stationary Distributions for Policy Gradient Reinforcement Learning

Morimura, Tetsuro; Uchibe, Eiji; Yoshimoto, Junichiro; Peters, Jan; Doya, Kenji

doi:10.1162/neco.2009.12-08-922

文章导航

2010年2月1日

策略梯度强化学习的对数平稳分布导数

特别收藏： CogNet公司

森村哲郎（Tetsuro Morimura）,

森村哲郎（Tetsuro Morimura）

IBM Research–东京，大和，神奈川242-8502，日本tetsuro@jp.ibm.com

搜索此作者的其他作品：

本网站

谷歌学者

内野英二,

内野英二

冲绳科学技术研究所，冲绳乌鲁马，904-2234，日本uchbe@oist.jp

搜索此作者的其他作品：

本网站

谷歌学者

吉本纯一郎,

吉本纯一郎

冲绳科学技术研究所，冲绳乌鲁马，904-2234，日本，和奈良630-0192，日本池沼奈良科学技术研究院六月-y@oist.jp

搜索此作者的其他作品：

本网站

谷歌学者

简·彼得斯,

简·彼得斯

马克斯·普朗克生物控制论研究所，72076，德国图宾根jan.peters@tuebingen.mpg.de

搜索此作者的其他作品：

本网站

谷歌学者

Kenji Doya公司

冲绳科学技术研究所，冲绳乌鲁马，904-2234，日本；奈良理工学院，日本奈良630-0192，伊科马；和ATR计算神经科学实验室，日本京都，Soraku，619-0288doya@oist.jp

搜索此作者的其他作品：

本网站

谷歌学者

作者和文章信息

森村哲郎（Tetsuro Morimura）

IBM Research–东京，大和，神奈川242-8502，日本tetsuro@jp.ibm.com

内野英二

冲绳科学技术研究所，冲绳乌鲁马，904-2234，日本uchbe@oist.jp

吉本纯一郎

冲绳科学技术研究所，冲绳乌鲁马，904-2234，日本，和奈良630-0192，日本池沼奈良科学技术研究院jun-y@oist.jp

简·彼得斯

马克斯·普朗克生物控制论研究所，72076，德国图宾根jan.peters@tuebingen.mpg.de

Kenji Doya公司

冲绳科学技术研究所，冲绳乌鲁马，904-2234，日本；奈良理工学院，日本奈良630-0192，伊科马；和ATR计算神经科学实验室，日本京都，Soraku，619-0288doya@oist.jp

收到： 2008年12月12日

认可的： 2009年5月20日

在线ISSN:1530-888X

打印ISSN:0899-7667

2009

神经计算(2010) 22 (2): 342–376.

https://doi.org/10.1162/neco.2009.12-08-922

摘要

大多数传统的策略梯度强化学习（PGRL）算法忽略（或没有明确使用）与策略参数相关的平均奖励梯度中的一个项。该项涉及稳态分布的导数，对应于其分布对政策参数变化的敏感性。尽管可以通过将值函数的遗忘率γ设置为接近1来减少这种遗漏引入的偏差，但这些算法不允许将γ精确设置为γ=1。在本文中，我们提出了一种通过后向马尔可夫链公式和时间差学习框架来估计对数平稳状态分布导数（LSD）的方法，作为平稳状态分布导数的一种有用形式，其中，平均奖励梯度可以通过设置γ=0来估计，因此无需学习值函数。我们还使用简单的基准任务测试了所提算法的性能，表明这些算法可以提高现有PG方法的性能。

2009

您当前无权访问此内容。

还没有帐户？注册

您无法登录。请检查您的电子邮件地址/用户名和密码，然后重试。

策略梯度强化学习的对数平稳分布导数

摘要

电子邮件警报

引用人

的产品麻省理工学院出版社

麻省理工学院直接出版社

问询处

麻省理工学院出版社

联系我们

策略梯度强化学习的对数平稳分布导数

摘要

登录

客户帐户

通过您的机构登录

电子邮件警报

引用人

相关文章

相关书籍章节

的产品麻省理工学院出版社

麻省理工学院直接出版社

问询处

麻省理工学院出版社

联系我们

此功能仅对订阅服务器可用