{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期部分”：[[2024,3,12]，“日期时间”：“2024-03-12T16:27:22Z”，“时间戳”：1710260842907}，“参考计数”：40，“出版商”：“麻省理工学院出版社-期刊”，“问题”：“2”，“内容域”：{“域”：[]，“交叉标记限制”：false}，”short-container-title“：[“神经计算”]，“published-print”：{“date-parts”：[[2010,2]}，“abstract”：“大多数传统的策略梯度强化学习（PGRL）算法忽略（或没有明确使用）与策略参数相关的平均奖励梯度中的一个项。该项涉及稳态分布的导数，对应于其分布对政策参数变化的敏感性。虽然可以通过将值函数的遗忘率\u03b3设置为接近1来减少这种省略带来的偏差，但这些算法不允许将\u03b 3精确设置为\u03b2=1。在本文中，我们提出了一种通过后向马尔可夫链公式和时间差学习框架来估计对数平稳状态分布导数（LSD）的方法，作为平稳状态分布导数的一种有用形式，其中，可以通过设置\u03b3=0来估计平均奖励梯度，因此无需学习值函数。我们还使用简单的基准任务测试了所提算法的性能，表明这些算法可以提高现有PG方法的性能<\/jats:p>“，”DOI“：”10.1162\/neco.2009.12-08-922“，”type“：”journal-article“，”created“：{”date-parts“：[[2009,10,20]]，”date-time“：”2009-10-20T23:41:07Z“，”timestamp“：1256082067000}“，”page“：“342-376”，“source”：“Crossref”，“is-referenced-by-count”：5，“title”：[“用于策略梯度强化学习的对数平稳分布的导数”]，“前缀“：”10.1162“，”volume“：”22“，”author“：[{”given“：“Tetsuro”，“family”：“Morimura”，“sequence”：“first”，“affiliation”：“[{“name”：“IBM Research\u2013 Tokyo，Yamato，Kanagawa 242-8502，Japan”}]}，{“given”：“Eiji”，”family“：”Uchibe“，”sequence“：”additional“，”affiliance“：[}”name“：”冲绳理工学院，Uruma，冲绳904-2234，日本“}]}，{“given”：“Junichiro”，“family”：“Yoshimoto”，“sequence”：“additional”，“affiliation”：[{“name”：“冲绳理工学院，冲绳乌鲁马，冲绳904-2234，日本，以及奈良630-0192，池马，奈良理工学院”}]}，{：“马克斯·普朗克生物控制论研究所，72076，T\u00fcbingen，Germany”}]}，{“given”：“Kenji”，“family”：“Doya”，”sequence“：”additional“，”affiliation“：[{“name”：“冲绳科学技术研究所，冲绳乌鲁马，904-2234，日本；奈良理工学院，奈良630-0192，日本；和ATR计算神经科学实验室，日本京都，Soraku，619-0288“}]}]，“成员”：“281”，“参考”：[{“键”：“B2”，“卷标”：“神经信息处理系统的进展”，“卷”：“11”，“作者”：“贝尔德·L”，“年份”：“1999”}doi-asserted-by“：”publisher，“DOI”：“10.1613\/jair.807”}，{“key”：“B5”，“volume-title”：“动态编程和优化控制”，“author”：“Bertsekas D.P.”，“year”：“1995”}、{“key”：”B6“，“volume-title”：”神经动力学编程“，”author“：”Bertsekos D.P.“，”year“：”1996“}，}“keys”：“B7”，“DOI-asserted-by”：“publisher”，”DOI“：”10.1 023\/A:1017936530646“}，{”键“：”B8“，”doi由“：”publisher断言，“doi”：“10.1007\/BF001114723”}，｛“key”：“B9”，“doi由”：“publisher断言”，“doi”：“10.1162\/08976600300015961”}，｛“key”：“B10”，“doi由”：“publisher断言”，“doi”：“10.1145\/884537.84552”}，｛“key”：“B11”，“首页”：“1471”，“卷”：“5”，“author”：“Greensmith E.”，“year”：“2004年”，“期刊标题”：“机器学习研究期刊”}，{“key”：“B12”，“doi-asserted-by”：“publisher”，“doi”：“10.1016\/0893-6080（90）90056-Q”}，{“key”：“B15”，“doi-asserted-by”：“publisher”，“doi”：“10.1137\/S0363012901385691”}，{“key”：“B16”，“doi-asserted-by”：“publisher”，“doi”：“10.1162\/jmlr.2003.4.6.1107”}、{“密钥”：“B1 7”，“卷时间”：“信息论、推理和学习算法”，“作者”：“MacKay D.”，“年份”：“2003”}；{“键”：“C18”，“首页”：“256”，”作者“：”Morimura T.“，”年份：“2005”，“新闻标题”：“信息几何及其应用国际研讨会”}，{“key”：“B19”，“doi-asserted-by”：“publisher”，“doi”：“10.1007\/s10015-008-0514-8”}奈良：奈良科技学院。“}，{”key“：”B21“，”doi-asserted-by“：”publisher“，”doi“：”10.1007\/978-3-540-87481-2_6“}“key”：”B22“，”volume-title“：”神经信息处理系统进展“，”author“：”Morimura T.“}由“：”publisher“，”提供DOI“：”10.1007\/BF00114731“}，{“key”：“B25”，“DOI-asserted-by”：“publisher”，“DOI”：“10.1109\/IROS.2006.282564”}，“key“：”B26“，”DOI-assert-by“：”publisher“，”DOI“:”10.1016\/j.neucom.2007.11.026“}，{“key”：“B28”，“DOI-asserted-by”：“publisher”，“DOI”：“10.1007”\/BF02055195“}，{”key“：”B29“，”doi-asserted-by“：”publisher“，”doi“：”10.1007\/978-1-4612-1582-0“}，{“key”：“B30”，“doi-assert-by”：“publisher”，“doi”：“10.1016\/B978-1-55860-335-6.50042-8”}，“key“：”B31“，”doi-asserted-by““：”Sutton R.S.“，”year“：”1998“}，{”key“：”B33“，”volume-title“：”神经信息处理系统进展”，“卷”：“12”，“作者”：“Sutton R.S.”，“年份”：“2000”}，{“键”：“B34”，“doi-asserted-by”：“出版商”，“doi”：“10.1016\/S0005-1098（99）00099-0”}：“publisher”，“doi”：“10.1145\/1390156.1390291”}，{“key”：“B37“，”doi-asserted-by“：”publisher“，”doi“：”10.1109\/ADPRL.2007.368168“}，{”key“：”B38“，”volume-title“：”Advances in neural information processing systems“，”卷“：”20“，”author“：”Wang T.“，“year”：“2008”}，”{“key”：“B39”，“doi-assert-by”：“publisher”，“doi”：“10.1007\/BF00992696”}ted-by“：”publisher“，”doi“：”10.1007\/978-3642-82336-7“}，{“key”：“B41”，“volume-title”：“基于最小二乘法的某些时间差分方法的收敛结果”，“author”：“Yu H.”，“year”：“2006”}]，“container-title“：[”Neural Calculation“]，”original-tittle“：[]，“language”：“en”，“link”：[{“URL”：“https:\/\/www.mitpressjournals.org\/doi\/pdf\/10.1162\/neco.2009.12-08-922”，“content-type”：“unspecified”，“内容版本”：“vor”，“预期应用程序”：“相似性检查”}]，“已存放”：｛“日期部分”：[[2021,3,12]]，“日期时间”：“2021-03-12T21:37:53Z”，“时间戳”：1615585073000｝，“分数”：1，“资源”：｛“主要”：｛“URL”：“https://direct.mit.edu\/neco\/article\/22\/2\/342-376\/7542”｝，“副标题”：[]，“短标题”：[]，“已发布”：｛“日期部分”：[[2010,2]]}，“references-count”：40，“journal-issue”：{“issue”：“2”，“published-print”：{“date-parts”：[[2010,2]}}，“alternative-id”：[“10.1162\/neco.2009.12-08-922”]，“URL”：“http://\/dx.doi.org\/10.1162\/neco2009.12-08-922”，“relationship”：{}，”ISSN“：[”0899-7667“，”1530-888X“]，“ISSN-type”：[{“值”：“0899-7667”，“类型”：“打印”}，{“数值”：“1530-888X”，“型号”：“电子”}]，“主题”：[]，“已发布”：{“日期部分”：[[2010,2]}}