{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期部分”：[[2024,9,9]]，“日期时间”：“2024-09-09T14:02:41Z”，“时间戳”：1725890561985}，“出版商位置”：“柏林，海德堡”，“参考计数”：28，“出版者”：“斯普林格-柏林-海德堡“，”isbn-type“：[{”type“打印”，“值”：“9783838 540874805“}，{”类型“：“electronic”，“value”：“9783540874812”}]，“license”：[{“start”：{“date-parts”：[[2008,1,1]]，“date-time”：“2008-01-01T00:00:00Z”，“timestamp”：1199145600000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“http://\www.springer.com\/tdm”}]}，“short-container-title”：[]，“published-print”：{“date-parts”：[[2008]]}，“DOI”：“10.1007\/978-3-540-87481-2_5”，“type”：“book-chapter”，“created”：{《date-part》：[[2008，8，13]]，“date-time”：“2008-08-13T23:30:46Z”，“timestamp”：1218670246000}，《page》：“66-81”，“source”：《Crossref》，“is-referenced-by-count”：10，“title”：[“Fitted Natural Actor-Critic:A New”连续状态-动作MDP的算法“]，”前缀“：“10.1007”，“作者”：[{“给定”：“弗朗西斯科·S”，“家族”：“Melo”，“sequence”：“first”，“affiliation”：[]}，{“给出”：“Manuel”，“family”：“Lopes”，“序列”：“additional”，“从属”：[]}，“member”：“297”，“reference”：[}“doi-asserted-by”：”crossref“，“unstructured”：“Peters，J.，Vijayakumar，S.，Schaal，S.：Natural Actor-Critic.In:Proc.欧洲会议。机器学习，pp.280\u2013291（2005）“，”key“：”5_CR1“，”DOI“：”10.1007\/11564096_29“}，”{“unstructured”：“Bertsekas，D.，Tsitsiklis，J.：Neuro-Dynamic Programming.Athena Scientific（1996）”，“key”：“5_CR2”}，{“issue”：“2”，“key”：“5 _CR3”，“DOI-asserted-by”：“publisher”，“首页”：“215”，“DOI”：“10.1162\/neco.1996.2.215”“，”卷“：”6“，”作者“：”G。Tesauro”，“年份”：“1994年”，“非结构化”：“Tesauro-G.:TD-Gammon，一个自学的双陆棋程序，实现了大师级的游戏。Neural Computation\u00a06（2），215\u2013219（1994）”，“期刊标题”：“Neural Computation”｝，｛“doi由”断言：“crossref”，“非结构化”：“Baird，L.：残差算法：函数逼近的强化学习。In：Proc.Int.Conf.Machine learning，pp.30\u201337（1995）”，“key”：“5_CR4”，“doi”：“10.1016/B978-1-55860-377-6.50013-X”｝，｛“issue”：“5“，”key“：“5_CR5”，”doi-asserted-by“：”publisher“，”first page“：”674“，”doi“：”10.1109\/9.580874“，“volume”：“42”，“author”：“J.Tsitsiklis”，“year”：“1996”，“unstructured”：“Tsitsicklis，J.，Van Roy，B.：用函数逼近分析时间差分学习。IEEE传输。自动控制\u00a042（5），674\u2013690（1996）”，“期刊标题”：“IEEE Trans。自动控制“}，{“doi-asserted-by”：“crossref”，“unstructured”：“Sutton，R.：强化学习中的开放理论问题。摘自：Proc.European Conf.Computational learning Theory，pp.11\u201317（1999）”，“key”：“5_CR6”，“doi”：“10.1007\/3-540-49097-3_2”}Antos，A.、Munos，R.、Szepesv\u00e1ri，C.：适合连续动作空间MDP中的Q迭代。In：高级神经信息程序。Systems，vol.\u00a020（2007）“，“key”：“5_CR7”}，{“unstructured”：“Munos，R.，Szepesv\u00e1ri，C.：基于抽样的拟合值迭代的有限时间界限。机器学习研究杂志（提交，2007年）”，“key:”5_CR8“}，”{“非结构化”：“Gordon，G.：稳定拟合强化学习。In:Adv。神经信息处理。Systems，vol.\u00a08，pp.1052\u20131058（1996）“，”key“：”5_CR9“}，{”key”：“5_CR10”，”doi-asserted-by“：”publisher“，”first page“：“161”，”doi“：”10.1023\/A:1017928328829“，”volume“：u2013178（2002）“，”journal-title“：“机器学习”}，{“key”：“5_CR11”，“首页”：“503”，“卷”：“6”，“作者”：“D.Ernst”，“年份”：“2005”，“非结构化”：“Ernst，D.，Geurts，P.，Wehenkel，L.：基于树的批处理模式强化学习。J.Machine Learning Research\u00a06，503\u2013556series-title“：“人工智能课堂讲稿”，“doi-asserted-by”：“publisher”，“first page”：“317”，“doi”：“10.1007\/11564096_32”，“volume-title”：“机器学习：ECML 2005”，“author”：“M.Riedmiller”，“year”：“2005”，M.：神经拟合Q迭代：首次体验数据高效的神经强化学习方法。收录人：Gama，J.、Camacho，R.、Braddil，P.B.、Jorge，A.M.、Torgo，L.（编辑）ECML 2005。LNCS（LNAI），第u00a03720卷，第317\u2013328页。Springer，Heidelberg（2005）“}，{“非结构化”：“Kimura，H.，Kobayashi，S.：使用随机梯度上升对连续动作进行强化学习。摘自：Proc.Int.Conf.Int.Int.智能自治系统，第288\u2013295页（1998）”，“key”：“5_CR13”}，}“非结构”：“Lazaric，A.，Restelli，M.，Bonarini，A.：通过顺序蒙特卡罗方法在连续动作空间中进行强化学习。In：高级神经信息程序。Systems，vol.\u00a020（2007）“，”key“：”5_CR14“}，{”issue“：”4“，”key“：“5_CR15”，”doi-asserted-by“：”publisher“，”first-page“：”1143“，”doi“：”10.1137\/S0363012901385691“，”volume“：》42“，”author“：”V.Konda“，“year”：“2003”，”unstructured“：”Konda，V.，Tsitsiklis，J.：论actor-critic算法。SIAM J.控制与优化\u00a a042（4），1143\u20131166（2003）“，”期刊标题“：”SIAM J.Control and Optimization“｝，｛“issue”：“5”，“key”：“5_CR16”，“doi asserted by”：“crossref”，“首页”：“834”，“doi”：“10.1109\/TSMC.1983.6313077”，“volume”：“13”，“author”：“A.Barto”，“year”：“1983”，“nonstructured”：“Barto，A.，Sutton，R.，Anderson，C.：可以解决学习控制困难问题的类似神经元的自适应元件。IEEE传输。系统，人与控制论\u00a013（5），834\u2013846（1983）“，“期刊标题”：“IEEE Trans。系统，人与控制论“}，{“doi-asserted-by”：“crossref”，“unstructured”：“van Hasselt，H.，Wiering，M.：连续动作空间中的强化学习。收录于：Proc.2007 IEEE Symp.Approx.Dynamic Programming and Restructure learning，pp.272\u2013279（2007）”，“key”：“5_CR17”，“doi”：“10.1109\/ADPRL.2007.368199”}Bhatnagar，S.、Sutton，R.、Ghavamzadeh，M.、Lee，M.：增量自然actor-critic算法。In：高级神经信息程序。Systems，vol.\u00a020（2007）“，”key“：”5_CR18“}，”{“unstructured”：“Kakade，S.：A natural policy gradient.In:Adv.Neural Information Proc.Systems，vol.\u0014，pp.1531\u20131538（2001）”，“key”：“5_CR19”}Markov决策过程：离散随机动态规划”，“作者”：“M.Puterman”，“年份”：“1994年”，“非结构化”：“Puterman，M.：Markov决策进程：离散随机动力规划”。John Wiley&Sons，Inc.，Chichester（1994）“}，{“unstructured”：“Sutton，R.，McAllester，D.，Singh，S.，Mansour，Y.：函数逼近强化学习的策略梯度方法。In：高级神经信息处理系统，vol.u00a012，pp.1057\u20131063（2000）”，“key”：“5_CR21”}，}“issue”：“2”，“密钥”：“5 _CR22”，“doi-asserted-by”：“”publisher，“首页”：“191”，“DOI”：“10.1109 \/9.905687”，“卷”：“46”，“作者”：“P.Marbach”，“年份”：“2001”，“非结构化”：“Marbach，P.，Tsitsiklis，J.：基于模拟的马尔可夫报酬过程优化。IEEE传输。自动控制\u00a046（2），191\u2013209（2001）“，”日志标题“：”IEEE Trans。自动控制“}，{“key”：“5_CR23”，“doi-asserted-by”：“crossref”，“doi”：“10.1007\/9781-4471-3267-7”，“volume-title”：“马尔可夫链和随机稳定性”，“author”：“S.Meyn”，《年份》：“1993”，“unstructured”：“Meyn，S.，Tweedie，R.：马尔可夫链条和随机稳定性。Springer，Heidelberg（1993）”}，}Baird，L.：优势更新。技术代表WL-TR-93-1146，Wright Laboratory，Wright-Patterson Air Force Base（1993）“，”key“：”5_CR24“}，{”issue“：”2“，”key“：“5_CR25”，”doi-asserted-by“：”publisher“，”first page“：Amari，S.：自然梯度在学习中有效。神经计算\u00a010（2），251\u2013276（1998）“，“journal-title”：“神经计算”}，{“key”：“5_CR26”，“doi-asserted-by”：“publisher”，“first-page”：“89”，“doi”：“10.1007\/s10994-007-5038-2”，“volume”：”71“author”：“A.Antos”，“year”：“2008”，“unstructured”：“Antos，A.，Szepesv\u00e1ri，C.，Munos，R.：使用基于Bellman剩余最小化的拟合策略迭代和单个样本路径学习近最优策略。机器学习\u00a071，89\u2013129（2008）“，”日记标题“：”机器学习“}，{“key”：“5_CR27”，“first page”：”123“，”volume“：”22“，”author“：”S.Singh“，”year“：”1996“，”unstructured“：”Singh，S.，Sutton，R.：用替换合格跟踪来强化学习。机器学习\u 00a022，123\u2013158（1996）“非结构化“：”Munos，R.：近似策略迭代的错误边界。In：程序。Int.Conf.Machine Learning，第560\u2013567页（2003）“，”key“：”5_CR28“}]，”container-title“：[”计算机科学课堂讲稿“，”数据库中的机器学习和知识发现“]，”original-title”：[]，“language”：“en”，“link”：[{“URL”：“http://\link.springer.com\/content\/pdf\/10007\/978-3-540-87481-2_5”，“content-type”：“unspecified”，“内容版本“：”vor“，”预期应用程序“：”相似性检查“｝]，”存放“：｛”日期部分“：[[2019,5,19]，”日期时间“：”2019-05-19T15:29:21Z“，”时间戳“：1558279761000｝，”分数“：1，”资源“：｛”主要“：｛”URL“：”http:\/\/link.springer.com\/10.1007\/978-3-540-87481-2_5“｝，”副标题“：[]，”短标题“：[]，”发布“：｛”日期部分“：[[2008]]｝，“国际标准书号”：[9783540874805“，”978354087 4812“]，”references-count“：28，”URL“：”http://\/dx.doi.org\/10.1007\/978-3-540-87481-2_5“，“关系”：{}，“ISSN”：[“0302-9743”，“1611-3349”]，“ISSN-type”：[{“type”:“print”，“value”：“0302-7743”}，{“类型”：“electronic”，“值”：“1611-349”}]，“主题”：[]，“已发布”：{“日期部分”：[[2008]]}}