{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期部分”:[[2024,9,9]],“日期时间”:“2024-09-09T14:02:41Z”,“时间戳”:1725890561985},“出版商位置”:“柏林,海德堡”,“参考计数”:28,“出版者”:“斯普林格-柏林-海德堡“,”isbn-type“:[{”type“打印”,“值”:“9783838 540874805“},{”类型“:“electronic”,“value”:“9783540874812”}],“license”:[{“start”:{“date-parts”:[[2008,1,1]],“date-time”:“2008-01-01T00:00:00Z”,“timestamp”:1199145600000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“http://\www.springer.com\/tdm”}]},“short-container-title”:[],“published-print”:{“date-parts”:[[2008]]},“DOI”:“10.1007\/978-3-540-87481-2_5”,“type”:“book-chapter”,“created”:{《date-part》:[[2008,8,13]],“date-time”:“2008-08-13T23:30:46Z”,“timestamp”:1218670246000},《page》:“66-81”,“source”:《Crossref》,“is-referenced-by-count”:10,“title”:[“Fitted Natural Actor-Critic:A New”连续状态-动作MDP的算法“],”前缀“:“10.1007”,“作者”:[{“给定”:“弗朗西斯科·S”,“家族”:“Melo”,“sequence”:“first”,“affiliation”:[]},{“给出”:“Manuel”,“family”:“Lopes”,“序列”:“additional”,“从属”:[]},“member”:“297”,“reference”:[}“doi-asserted-by”:”crossref“,“unstructured”:“Peters,J.,Vijayakumar,S.,Schaal,S.:Natural Actor-Critic.In:Proc.欧洲会议。机器学习,pp.280\u2013291(2005)“,”key“:”5_CR1“,”DOI“:”10.1007\/11564096_29“},”{“unstructured”:“Bertsekas,D.,Tsitsiklis,J.:Neuro-Dynamic Programming.Athena Scientific(1996)”,“key”:“5_CR2”},{“issue”:“2”,“key”:“5 _CR3”,“DOI-asserted-by”:“publisher”,“首页”:“215”,“DOI”:“10.1162\/neco.1996.2.215”“,”卷“:”6“,”作者“:”G。Tesauro”,“年份”:“1994年”,“非结构化”:“Tesauro-G.:TD-Gammon,一个自学的双陆棋程序,实现了大师级的游戏。Neural Computation\u00a06(2),215\u2013219(1994)”,“期刊标题”:“Neural Computation”},{“doi由”断言:“crossref”,“非结构化”:“Baird,L.:残差算法:函数逼近的强化学习。In:Proc.Int.Conf.Machine learning,pp.30\u201337(1995)”,“key”:“5_CR4”,“doi”:“10.1016/B978-1-55860-377-6.50013-X”},{“issue”:“5“,”key“:“5_CR5”,”doi-asserted-by“:”publisher“,”first page“:”674“,”doi“:”10.1109\/9.580874“,“volume”:“42”,“author”:“J.Tsitsiklis”,“year”:“1996”,“unstructured”:“Tsitsicklis,J.,Van Roy,B.:用函数逼近分析时间差分学习。IEEE传输。自动控制\u00a042(5),674\u2013690(1996)”,“期刊标题”:“IEEE Trans。自动控制“},{“doi-asserted-by”:“crossref”,“unstructured”:“Sutton,R.:强化学习中的开放理论问题。摘自:Proc.European Conf.Computational learning Theory,pp.11\u201317(1999)”,“key”:“5_CR6”,“doi”:“10.1007\/3-540-49097-3_2”}Antos,A.、Munos,R.、Szepesv\u00e1ri,C.:适合连续动作空间MDP中的Q迭代。In:高级神经信息程序。Systems,vol.\u00a020(2007)“,“key”:“5_CR7”},{“unstructured”:“Munos,R.,Szepesv\u00e1ri,C.:基于抽样的拟合值迭代的有限时间界限。机器学习研究杂志(提交,2007年)”,“key:”5_CR8“},”{“非结构化”:“Gordon,G.:稳定拟合强化学习。In:Adv。神经信息处理。Systems,vol.\u00a08,pp.1052\u20131058(1996)“,”key“:”5_CR9“},{”key”:“5_CR10”,”doi-asserted-by“:”publisher“,”first page“:“161”,”doi“:”10.1023\/A:1017928328829“,”volume“:u2013178(2002)“,”journal-title“:“机器学习”},{“key”:“5_CR11”,“首页”:“503”,“卷”:“6”,“作者”:“D.Ernst”,“年份”:“2005”,“非结构化”:“Ernst,D.,Geurts,P.,Wehenkel,L.:基于树的批处理模式强化学习。J.Machine Learning Research\u00a06,503\u2013556series-title“:“人工智能课堂讲稿”,“doi-asserted-by”:“publisher”,“first page”:“317”,“doi”:“10.1007\/11564096_32”,“volume-title”:“机器学习:ECML 2005”,“author”:“M.Riedmiller”,“year”:“2005”,M.:神经拟合Q迭代:首次体验数据高效的神经强化学习方法。收录人:Gama,J.、Camacho,R.、Braddil,P.B.、Jorge,A.M.、Torgo,L.(编辑)ECML 2005。LNCS(LNAI),第u00a03720卷,第317\u2013328页。Springer,Heidelberg(2005)“},{“非结构化”:“Kimura,H.,Kobayashi,S.:使用随机梯度上升对连续动作进行强化学习。摘自:Proc.Int.Conf.Int.Int.智能自治系统,第288\u2013295页(1998)”,“key”:“5_CR13”},}“非结构”:“Lazaric,A.,Restelli,M.,Bonarini,A.:通过顺序蒙特卡罗方法在连续动作空间中进行强化学习。In:高级神经信息程序。Systems,vol.\u00a020(2007)“,”key“:”5_CR14“},{”issue“:”4“,”key“:“5_CR15”,”doi-asserted-by“:”publisher“,”first-page“:”1143“,”doi“:”10.1137\/S0363012901385691“,”volume“:》42“,”author“:”V.Konda“,“year”:“2003”,”unstructured“:”Konda,V.,Tsitsiklis,J.:论actor-critic算法。SIAM J.控制与优化\u00a a042(4),1143\u20131166(2003)“,”期刊标题“:”SIAM J.Control and Optimization“},{“issue”:“5”,“key”:“5_CR16”,“doi asserted by”:“crossref”,“首页”:“834”,“doi”:“10.1109\/TSMC.1983.6313077”,“volume”:“13”,“author”:“A.Barto”,“year”:“1983”,“nonstructured”:“Barto,A.,Sutton,R.,Anderson,C.:可以解决学习控制困难问题的类似神经元的自适应元件。IEEE传输。系统,人与控制论\u00a013(5),834\u2013846(1983)“,“期刊标题”:“IEEE Trans。系统,人与控制论“},{“doi-asserted-by”:“crossref”,“unstructured”:“van Hasselt,H.,Wiering,M.:连续动作空间中的强化学习。收录于:Proc.2007 IEEE Symp.Approx.Dynamic Programming and Restructure learning,pp.272\u2013279(2007)”,“key”:“5_CR17”,“doi”:“10.1109\/ADPRL.2007.368199”}Bhatnagar,S.、Sutton,R.、Ghavamzadeh,M.、Lee,M.:增量自然actor-critic算法。In:高级神经信息程序。Systems,vol.\u00a020(2007)“,”key“:”5_CR18“},”{“unstructured”:“Kakade,S.:A natural policy gradient.In:Adv.Neural Information Proc.Systems,vol.\u0014,pp.1531\u20131538(2001)”,“key”:“5_CR19”}Markov决策过程:离散随机动态规划”,“作者”:“M.Puterman”,“年份”:“1994年”,“非结构化”:“Puterman,M.:Markov决策进程:离散随机动力规划”。John Wiley&Sons,Inc.,Chichester(1994)“},{“unstructured”:“Sutton,R.,McAllester,D.,Singh,S.,Mansour,Y.:函数逼近强化学习的策略梯度方法。In:高级神经信息处理系统,vol.u00a012,pp.1057\u20131063(2000)”,“key”:“5_CR21”},}“issue”:“2”,“密钥”:“5 _CR22”,“doi-asserted-by”:“”publisher,“首页”:“191”,“DOI”:“10.1109 \/9.905687”,“卷”:“46”,“作者”:“P.Marbach”,“年份”:“2001”,“非结构化”:“Marbach,P.,Tsitsiklis,J.:基于模拟的马尔可夫报酬过程优化。IEEE传输。自动控制\u00a046(2),191\u2013209(2001)“,”日志标题“:”IEEE Trans。自动控制“},{“key”:“5_CR23”,“doi-asserted-by”:“crossref”,“doi”:“10.1007\/9781-4471-3267-7”,“volume-title”:“马尔可夫链和随机稳定性”,“author”:“S.Meyn”,《年份》:“1993”,“unstructured”:“Meyn,S.,Tweedie,R.:马尔可夫链条和随机稳定性。Springer,Heidelberg(1993)”},}Baird,L.:优势更新。技术代表WL-TR-93-1146,Wright Laboratory,Wright-Patterson Air Force Base(1993)“,”key“:”5_CR24“},{”issue“:”2“,”key“:“5_CR25”,”doi-asserted-by“:”publisher“,”first page“:Amari,S.:自然梯度在学习中有效。神经计算\u00a010(2),251\u2013276(1998)“,“journal-title”:“神经计算”},{“key”:“5_CR26”,“doi-asserted-by”:“publisher”,“first-page”:“89”,“doi”:“10.1007\/s10994-007-5038-2”,“volume”:”71“author”:“A.Antos”,“year”:“2008”,“unstructured”:“Antos,A.,Szepesv\u00e1ri,C.,Munos,R.:使用基于Bellman剩余最小化的拟合策略迭代和单个样本路径学习近最优策略。机器学习\u00a071,89\u2013129(2008)“,”日记标题“:”机器学习“},{“key”:“5_CR27”,“first page”:”123“,”volume“:”22“,”author“:”S.Singh“,”year“:”1996“,”unstructured“:”Singh,S.,Sutton,R.:用替换合格跟踪来强化学习。机器学习\u 00a022,123\u2013158(1996)“非结构化“:”Munos,R.:近似策略迭代的错误边界。In:程序。Int.Conf.Machine Learning,第560\u2013567页(2003)“,”key“:”5_CR28“}],”container-title“:[”计算机科学课堂讲稿“,”数据库中的机器学习和知识发现“],”original-title”:[],“language”:“en”,“link”:[{“URL”:“http://\link.springer.com\/content\/pdf\/10007\/978-3-540-87481-2_5”,“content-type”:“unspecified”,“内容版本“:”vor“,”预期应用程序“:”相似性检查“}],”存放“:{”日期部分“:[[2019,5,19],”日期时间“:”2019-05-19T15:29:21Z“,”时间戳“:1558279761000},”分数“:1,”资源“:{”主要“:{”URL“:”http:\/\/link.springer.com\/10.1007\/978-3-540-87481-2_5“},”副标题“:[],”短标题“:[],”发布“:{”日期部分“:[[2008]]},“国际标准书号”:[9783540874805“,”978354087 4812“],”references-count“:28,”URL“:”http://\/dx.doi.org\/10.1007\/978-3-540-87481-2_5“,“关系”:{},“ISSN”:[“0302-9743”,“1611-3349”],“ISSN-type”:[{“type”:“print”,“value”:“0302-7743”},{“类型”:“electronic”,“值”:“1611-349”}],“主题”:[],“已发布”:{“日期部分”:[[2008]]}}