{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期部分”:[[2024,9,19]],“日期时间”:“2024-09-19T15:24:00Z”,“时间戳”:1726759440224},“出版商位置”:“柏林,海德堡”,“参考计数”:17,“出版者”:“斯普林格-柏林-海德堡“,”isbn-type“:[{”type“打印”,“值”:“9783838 642237799“},{”类型“:“电子”,“值”:“9783642237805”}],“许可证”:[{“开始”:{“日期部分”:[[2011,1,1]],“日期时间”:“2011-01-01T00:00:00Z”,“时间戳”:1293840000000},“内容版本”:“tdm”,“延迟天数”:0,“URL”:“https://www.springer.com\/tdm”},{“开始”:{“日期部分”:[[2011,1,1]],“日期时间”:“2011-01-01T00:00:00Z”,“时间戳“:1293840000000},”内容版本“:“vor”,“delay-in-days”:0,“URL”:“https:\\/www.springer.com//tdm”}],“content-domain”:{“domain”:[“link.springer.com”],“crossmark-restriction”:false},“short-container-title”:[],“published-print”:{“date-parts”:[[2011]]},”DOI“:”10.1007\\978-3-642-23780-5_30“,”type“:”book-capter“,”created“:{”date-part“parts“:[[2011,8,17]],“日期时间”:“2011-08-17T17:54:37Z”,“时间戳”:1313603677000},“页面”:“312-327”,“更新策略”:“http://\/dx.doi.org\/10.1007\/springer_crossmark_policy”,“源”:“Crossref”,《is-referenced-by-count》:13,“标题”:[“基于偏好的策略迭代:利用偏好学习进行强化学习”],“前缀”:“10.1007”,”作者“:[{”给定“Weiwei”,“family”:“Cheng”,“sequence”:“first”,“affiliation”:[]},{“given”:“Johannes”,“family”:“F\u00fcrnkranz”,“sequence”:“additional”,“abfiliation“:[]{”given“:”Eyke“,”family“:”H\u00fc llermier“,”sequence“:”additional“,”affiliance“:[]},}“giving”:“Sang-Hyeun”,“家庭”:“Park”,“sequence”:“additionable”,“atriation”:“[]}],“member”:“297”“,”引用“:[{”键“:”30_CR1“,”首页“:”835“,“卷”:“13”,“作者”:“A.G.Barto”,“年份”:“1983”,“非结构化”:“Barto,A.G.,Sutton,R.S.,Anderson,C.:可以解决困难的学习控制问题的神经元样元素。IEEE Transaction on Systems,Man and Cybernetics \u00a013,835\u2013846(1983)”,“期刊标题”:“IEEE Transaction on Systems,Man and Cybernetics”},{“issue”:“11”,“key”:“30_CR2”,“doi-asserted-by”:“publisher”,“first page”:“2471”,“doi”:“10.1016\/j.automatica.2009.07.008”,“volume”:”45“,“author”:“S.Bhatnagar”,“year”:“2009”,“unstructured”:“Bhatngar,S.,Sutton,R.S.,Ghavamzadeh,M.,Lee,M.:自然actor-critic算法。automatica\u00a045(11),2471\u20132482(2009)”,“journal-title”:“Automatic”ica“},{“问题”:“3”,“key”:“30_CR3”,“doi-asserted-by”:“publisher”,“first page”:”157“,“doi”:“10.1007\/s10994-008-5069-3”,“volume”::“72”,“author”:“C.Dimitrakakis”,“year”:“2008”,“unstructured”:“Dimitraakis,C.,Lagoudakis,M.G.:推出抽样近似策略迭代。机器学习\u00a072(3),157\u2013171(2008)”,“日志标题”:“机器学习”},{键“:“30_CR4”,“doi-asserted-by”:“crossref”,“first-page”:“75”,“doi”:“10.1613\/jair.1700”,“volume”:“25”,“author”:“A.Fern”,“year”:“2006”,“unstructured”:“Fern,A.,Yoon,S.W.,Givan,R.:具有政策语言偏差的近似政策迭代:解决关系马尔可夫决策过程。人工智能研究杂志\u00a025,75\u2013118(2006)”,“期刊标题”:“人工智能研究期刊”},{“卷时间”:“偏好学习”,“年份”:“2010”,“关键”:“30_CR5”,“非结构化”:“F\u00fcrnkranz,J.,H\u00ffllermier,E.(eds.):偏好学习。Springer,Heidelberg(2010)”},{“关键”:“30_CR6”,“非结构性”:“Gabillon,V.,Lazaric,A.,Ghavamzadeh,M.:基于分类的政策迭代的推出分配策略。In:Auer,P.,Kaski,S.,Szepesv\u00e0ri,CICML 2010年超大空间强化学习与搜索研讨会论文集(2010)“},{“issue”:“1”,“key”:“30_CR7”,“doi-asserted-by”:“publisher”,“first page”:”10“,“doi”:“10.1145\/1656274.1656278”,“volume”::“11”,“author”:“M.Hall”,“year”:“2009”,“unstructured”:“Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.、Witten,I.:weka数据挖掘软件:更新。SIGKDD Explorations\u00a011(1),10\u201318(2009)”,“期刊标题”:“SIGKDD Explorations”},{“key”:“30_CR8”,“doi断言”:“publisher”,“首页”:“1897”,“doi”:“10.1016\/j.artint.2008.08.0002”,“volume”:“172”,“author”:“E.H\u00fcllermeier”,“year”:“2008”,“nonstructured”:“H.u00fcllermier,E.,F\u00fcrnkranz,J.,Cheng,W.,Brinker,K.:通过学习成对偏好进行标签排名。人工智能\u00a01721897\u20131916(2008)“,”杂志标题“:”人工智能“},{“key”:“30_CR9”,“doi-asserted-by”:“publisher”,“first page”:”456“,”doi“:”10.1145\/1390156.1390214“,”volume-title“:”第25届国际机器学习会议(ICML 2008)论文集“,”author“:”K.Kersting“,”year“:”2008“,”unstructured“:”Kersting,K.,Driessens,K.:非参数政策梯度:命题域和关系域的统一处理。Cohen,W.W.,McCallum,A.,Roweis,S.T.(编辑)《第25届机器学习国际会议论文集》(ICML 2008),第456\u2013463页。ACM,Helsinki(2008)“},{“issue”:“4”,“key”:“30_CR10”,“doi-asserted-by”:“publisher”,“first-page”:“1143”,“doi”:“10.1137\/S0363012901385691”,“volume”:《42》,“author”:“V.R.Konda”,《year》:“2003”,“unstructured”:“Konda,V.R.,Tsitsiklis,J.N.:关于actor-critic算法。SIAM控制与优化杂志\u00a042(4),1143\ u20131166(2003)“,”journal-title“:”SIAM控制与优化杂志“},{“key”:“30_CR11”,“first page”:”424“,“volume-title”:“Proceedings of the 20th International Conference on Machine Learning(ICML 2003)”,“author”:“M.G.Lagoudakis”,“year”:“2003”,“unstructured”:“Lagoudakis,M.G.,Parr,R.:强化学习作为分类:利用现代分类器。摘自:Fawcett,T.E.,Mishra,N.(编辑)《第20届机器学习国际会议论文集》(ICML 2003),第424\u2013431页。AAAI Press,Washington,DC(2003)“},{”key“:”30_CR12“,”首页“:”9“,”volume“:“3”,”author“:”R.S.Sutton“,”year“:”1988“,”unstructured“:”Sutton,R.S.:“通过时间差异的方法学习预测。机器学习\u00a03,9\u201344(1988)“,”journal-title“:”Machine Learning“}神经信息处理系统进展12(NIPS-1999)”,“作者”:“R.S.Sutton”,“年份”:“1999”,“非结构化”:“Sutton,R.S.,McAllester,D.A.,Singh,S.P.,Mansour,Y.:函数逼近强化学习的策略梯度方法。收录于:Solla,S.A.、Leen,T.K.、M\u00fcller,K.-R.(编辑)《神经信息处理系统的进展》12(NIPS-1999),第1057\u20131063页。麻省理工学院出版社,丹佛(1999)“},{“key”:“30_CR14”,“doi-asserted-by”:“crossref”,“unstructured”:“Vembu,S.,G\u00e4rtner,T.:标签排名算法:一项调查。收录于:F\u00fcrnkranz和H\u00FCllermier[5],第45\u201364页。”,“doi”:“10.1007\/978-3642-14125-6_3”},“key“:”30_CR15”,“首页”:“279”,“卷”:“8“,”作者“:”C.J.Watkins“,”年份“:”1992“,”非结构化”:“Watkins,C.J.,Dayan,P.:Q-learning。机器学习\u00a08,279\u2013292(1992)“,”日记标题“:”机器学习“},{“key”:“30_CR16”,“first page”:”229“,”volume“:”8“,”author“:”R.J.Williams“,”year“:”1992“,”unstructured“:”Williams,R.J.:“简单统计梯度算法用于连接强化学习。机器学习\u 00a08、229\u2013 256(1992)”,“journal-title“:“机器学习”},{“key”:“30_CR17”,“首页”:“3295”,“卷”:“28”,“作者”:“Y.Zhao”,“年份”:“2009”,“非结构化”:“Zhao,Y.,Kosorok,M.,Zeng,D.:癌症临床试验的强化学习设计。医学统计学\u00a028,3295\u20133315(2009)”,“期刊标题”:“医学统计学”}],“container-title”:[“计算机科学课堂讲稿”,“数据库中的机器学习和知识发现”],“original-title”:[],“language”:“en”,“link”:[{“URL”:“https:\/\/link.springer.com/content\/pdf\/10.1007\/978-23780-5_30”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“similarity-checking”}],“deposed”:{date-parts“:[[2021,9,1]],“date-time”:“2021-09-01T00:19:19Z”,“timestamp”:1630455559000},“score”:1,“resource”:{“primary”:{“URL”:“https:\/\/link.springer.com\/10.1007\/978-3-642-23780-5_30”},”subtitle“:[],”shorttitle“:[],”issued“:{”date-part“:[2011]]}”,“ISBN”:[“9783642237799”,“9783642237805”],“references-count”:17,“URL”:“http:\/\/dx.doi.org\/10.1007\/978-3642-23780-5_30“,”关系“:{},”ISSN“:[”0302-9743“,”1611-3349“],”ISSN-type“:[{”类型“:”打印“,”值“:”0302-7743“},{”型号“:”电子“,”数值“:”1611-33049“}],”主题“:[],”发布“:{”日期部分“:[2011]]},“断言”:[{“值”:“This内容已提供给所有人。“,”name“:”free“,”label“:”free to read“}]}}