{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,6,13]],“日期-时间”:“2024-06-13T16:39:03Z”,“时间戳”:1718296743810},“引用-计数”:42,“出版商”:“Springer Science and Business Media LLC”我”:“2014-07-02T00:00:00Z”,“timestamp”:140425920000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“http://www.springer.com/tdm”}],“content-domain”:{“domain”:[“link.springer.com”],“crossmark-restriction”:false},”short-container-title“:[”Mach-Learn“],”published-print“:{”date-parts“:[2014,12]]},4-5458-8“,”type“:”journal-article“,”created“:{“date-parts”:[[2014,7,2],“date-time”:“2014-07-02T03:34:55Z”,“timestamp”:1404272095000},“page”:“327-351”,“update-policy”:”http://\/dx.doi.org\/10.1007\/springer_crossmark_policy“,”source“Crossref”,“is-referenced-by-count”:18,“title”:[“基于偏好的强化学习:使用基于偏好的竞赛算法进行进化直接策略搜索”],“前缀”:“10.1007”,“卷”:“97”,“作者”:[{“给定”:“R\u00f3bert”,“家族”:“Busa-Fekete”,“序列”:“第一”,“从属”:[]},{“given”:“Paul”,“family”:“Weng”,“sequence”:“additional”,“affiliation”:[]},{“fixed”:“Weiwei”,“家族”:“Cheng”,”sequence“:”additional“,”affiliance“:[]{”given“:”Eyke“,”family“:”H\u00fcllermier“,”se序列“:”附加“,”从属关系:[]2],“member”:“297”,“published on”:{“date-parts”:[[2014,7,2]]},“reference”:[{“key”:“5458_CR1”,“doi-asserted-by”:“crossref”,“unstructured”:“Abbeel,P.,&Ng,A.(2004)。通过反向强化学习进行学徒学习。第21届机器学习国际会议论文集。纽约,NY:ACM。”,“DOI”:“10.1145\/1015330.1015430”},{“key”:“5458_CR2”,“DOI-asserted-by”:“crostref”,“非结构化”:“Akrour,R.,Schoenauer,M.,&Sebag,M.(2011)。基于偏好的政策学习。在《2011年欧洲机器学习与数据库中知识发现的原理和实践会议论文集》(Proceedings ECMLPKDD 2011,European conference on machine learning and principles and practice of knowledge discovery In database)(第12\u201327页)中。柏林:斯普林格出版社。”,“DOI”:“10.1007\/978-3642-23780-5_11”},{“key”:“5458_CR3”,“DOI-asserted-by”:“crossref”,“非结构化”:“Akrour,R.,Schoenauer,M.,&Sebag,M.(2012)。4月:基于主动偏好学习的强化学习。《2012年欧洲机器学习会议论文集》,数据库中知识发现的原理和实践(第116\u2013131页)。柏林:施普林格。”,“DOI”:“10.1007\/978-3642-33486-3_8”},{“关键”:“5458_CR4”,“非结构化”:“Akrour,R.,Schoenauer,M.,&Sebag,M.(2013)。交互式机器人教育。在ECML强化学习研讨会上,广义反馈:超越数字奖励。”},{“问题”:“3”,“键”:“5458 _CR5”,“doi-asserted-by”:“crossref”,“首页”:“239”,“doi”:“10.1016\/0167-7152(94)00072-G”,《卷》:“22”,“作者”:“MA Arcones”,“year”:“1995”,“unstructured”:“Arcones,M.A.(1995)。u-statistics和u-process的Bernstein型不等式。statistics&Probability Letters,22(3),239\u2013247.”,“journal-title”:“statistics-Probability Letters”},{“key”:“5458_CR6”,“doi-asserted-by”:“crossref”,“非结构化”:“Audibert,J.,Munos,R.,&Szepesv\u00e1ri,C.(2007)。在随机环境中调整土匪算法。算法学习理论论文集(第150\u2013165页)。”,“DOI”:“10.1007\/978-3-540-75225-7_15”},{“key”:“5458_CR7”,“DOI-asserted-by”:“crossref”,“first page”:”235,“DOI:“10.1023\/A:1013689704352”,“volume”:《47》,“author”:“P Auer”,“year”:“2002”,“unstructured”:“Auer,P.,Cesa-Bianchi,N.,&Fischer,P.(2002).多武装盗贼问题的有限时间分析.机器学习,47,235\u2013256.”,“journal-title”:“机器学习”},{“key”:“5458_CR8”,“doi-asserted-by”:“crossref”,“first-page:“3”,“doi”:“10.1023\/A:1015059928466”,“volume”:“1”,“author”:“H Beyer”,“年份”:“2002年”,“非结构化”:“Beyer,H.,&Schwefel,H.(2002).进化策略-综合介绍.自然计算,1,3\u201352.”,“新闻标题”:“自然计算”},{“key”:“5458_CR9”,“doi-asserted-by”:“crossref”,“unstructured”:“Cheng,W.,F\u00fcrnkranz,J.,H\u00FCllermier,E.,&Park,S.(2011)基于偏好的政策迭代:利用偏好学习进行强化学习。在《2011年欧洲机器学习与数据库中知识发现的原理和实践会议论文集ECMLPKDD》中(第414\u2013429页)。柏林:斯普林格。“,”DOI“:”10.1007\/978-3642-23780-5_30“},{”key“:”5458_CR10“,”volume-title“:”解决多目标问题的进化算法“,”author“:”C Coello“,”year“:”2007“,”unstructured“:”Coello,C.,Lamont,G.,&Van Veldhuizen,D.(2007)。解决多目标的进化算法。Berlin:Springer。“}doi-asserted-by“:”crossref“,”unstructured“:”Even-Dar,E.,Mannor,S.,&Mansour,Y.(2002)。多武装盗贼和马尔可夫决策过程的PAC界。第15届计算学习理论年会论文集(第255\u2013270页)。柏林:斯普林格。“,”DOI“:”10.1007\/3-540-45435-7_18“},{”key“:”5458_CR12“,”DOI-asserted-by“:”crossref“,”first page“:“31”,“DOI”:“10.1016\/0022-2496(82)90034-7”,“volume”:“26”,“author”:“P Fishburn”,“year”:“1982”,“unstructured”:“Fishbuurn,P.(1982)。非传递性可测量效用。数学心理学杂志,26,31\u201367。”,“,”Journal-title“:”《数学心理学杂志》,{“键”:“5458_CR13”,“卷标题”:“博弈论”,“作者”:“D Fudenberg”,“年份”:“1991”,“非结构化”:“Fudenberg,D.,&Tirole,J.(1991)。博弈论。马萨诸塞州剑桥:麻省理工学院。”},{“键”:“5458_CR14”,“卷标题”:“偏好学习”,“年份”:“2011”,“非结构化”:“F\u00fcrnkranz,J.,&H\u00fcllermeier,E.(编辑). (2011). 偏好学习。柏林:斯普林格。“},{”issue“:”1\u20132“,”key“:”5458_CR15“,”doi asserted by“:”crossref“,”首页“:”123“,”doi“:”10.1007\\s10994-012-5313-8“,”volume“:”89“,”author“:”J F\u00fcrnkranz“,”year“:”2012“,”nonstructured“:”F\u00fcrnkranz,J.,H\u00fcllermeier,E.,Cheng,W.,&Park,S.(2012)基于偏好的强化学习:一个形式化框架和策略迭代算法。机器学习,89(1\u20132),123\u2013156.“,”journal-title“:”Machine Learning“},{“key”:“5458_CR16”,“doi-asserted-by”:“crossref”,“unstructured”:“Hansen,N.,&Kern,S.(2004).评估CMA进化策略对多模态测试函数的影响.在自然-PPSN VIII并行问题解决中(第282\u2013291页).柏林:Springer”,“doi”:“10.1007 \/978-3-540-30217-9_29“},{“key”:“5458_CR17”,“unstructured”:“Heidrich-Meisner,V.,&Igel,C.(2008)。用于嘈杂山地车问题的可变度量强化学习方法。强化学习的最新进展(第136\u2013150页)。柏林:施普林格。”},}“key:”5458_CR18“,”doi-asserted-by“:”crossref“,”unstructure“:”Heidrich-Meisner,V.和Igel,C.(2009年)。霍夫丁和伯恩斯坦争夺进化直接政策搜索中的政策选择。第26届机器学习国际会议论文集(第401\u2013408页)。纽约州纽约市:ACM。“,”DOI“:”10.1145\/1553374.1553426“},{”issue“:”4“,”key“:”5458_CR19“,”DOI-asserted-by“:”crossref“,”first page“:“152”,“DOI”:“10.1016\/j.jalgor.2009.04.002”,“volume”:“64”,“author”:“V Heidrich-Meisner”,“year”:“2009”,“unstructured”:“Heidrich-Meisner,V.,&Igel,C.(2009)情景强化学习的神经进化策略。算法杂志,64(4),152\u2013168.“,”Journal-title“:”Journal of Algorithms“},{“issue”:“1”,“key”:“5458_CR20”,“doi-asserted-by”:“crossref”,“first page”:”133“,”doi“:”10.1214\/aoms\/1177729491“,”volume“:”23“,”author“:”J Hemelrijk“,”year“:”1952“,”unstructured“:”Hemellijk,J.(1952)。关于Wilcoxon\u2019s双样本测试的注释(如果存在领带)。《数理统计年鉴》,23(1),133\u2013135。“,”journal-title“:《数理统计学年鉴》”},{“key”:“5458_CR21”,“doi-asserted-by”:“crossref”,“first-page”:“13”,“doi”:“10.1080\/01621459.1963.10500830”,“volume”:《58》,“author”:“W Hoeffing”,“year”:“1963”,“unstructured”:“Hoeffining,W.(1963)有界随机变量和的概率不等式。《美国统计协会杂志》,58,13\u201330.“,”Journal-title“:”Journal of the American Statistical Association“},{”key“:”5458_CR22“,”unstructured“:”Kalyanakrishnan,S.,Tewari,A.,Auer,P.,&Stone,P.(2012)随机多武装匪徒中的.PAC子集选择。第二十届机器学习国际会议论文集(ICML 2012)(第655\u2013662页)。全能女。“},{”key“:”5458_CR23“,”unstructured“:”Kreweras,G.(1961)。Sur une possibilit\u00e9 de rationaliser les intransititive\u00e 9s.In La d\u00e9cision,CNRS。“}”,{“key”:“5458_CR2”,“unstructure”:“Lagoudakis,M.,&Parr,R.(2003)强化学习作为分类:利用现代分类器。第20届机器学习国际会议论文集(第424\u2013431页)。AAAI出版社。“},{”key“:”5458_CR25“,”doi-asserted-by“:”crossref“,”doi“:”10.1007\/978-3642-60805-6“,”volume-title“:”锦标赛解决方案和多数投票“,”author“:”J Laslier“,”year“:”1997“,”unstructured“:”Laslier,JLazaric,A.、Ghavamzadeh,M.和Munos,R.(2010年)。基于分类的策略迭代算法分析。第27届机器学习国际会议论文集(第607\u2013614页)。全能女。},{“key”:“5458_CR27”,“unstructured”:“Maron,O.,&Moore,A.(1994)。Hoeffing races:加速分类和函数近似的模型选择搜索。《神经信息处理系统进展》(第59\u201366页)。Morgan Kaufmann。”},“issue”:“1”,“key“:”5458_CR2“,”doi-asserted-by“:”crossref“,”first page“:“193”,“doi”:“10.1023\/A:1006556606079“,”卷“:”5“,”作者“:”O Maron“,”年份“:”1997“,”非结构化“:”Maron,O.,&Moore,A.(1997)。竞赛算法:懒惰学习者的模型选择。《人工智能评论》,5(1),193\u2013225纽约州纽约市:ACM。“,”DOI“:”10.1145\/1390156.1390241“},{“key”:“5458_CR30”,“DOI-asserted-by”:“crossref”,“DOI”:“10.1017\/CCOL0521360552”,“volume-title”:“合作决策的公理”,“author”:“H Moulin”,“year”:“1988”,“unstructured”:“Moulin,H.(1988)。合作决策的公理。剑桥:剑桥大学出版社。”},}“issue”:“4”,“key“:”5458_CR31“,”doi-asserted-by“:”crossref“,”first page“:”369“,”doi“:”10.1162\/evco.1994.2.4.369”,“volume”:“2”,“author”:“A Ostermeier”,“year”:“1994”,“unstructured”:“Ostermier,A.,Gawelczyk,A.,&Hansen,N.(1994)。进化策略自我适应的一种疯狂方法。进化计算,2(4),369\u2013380.“,”journal-title“:”Evolutionary Computation“},{”key“:”5458_CR32“,”first-page“:”1903“,”volume“:“23”,”author“:”T Peel“,”year“:”2010“,”unstructured“:”Peel,T.,Anthoine,S.,&Ralaivola,L.(2010)u-统计的经验Bernstein不等式。神经信息处理系统进展,231903\u20131911。”,“journal-title”:“神经信息处理体系进展”},{“issue”:“1”,“key”:“5458_CR33”,“doi-asserted-by”:“crossref”,“first page”:”188“,“doi”:“10.1016\/j.orl.2011.03.007”,“volume”::“39”,“author”:“A Pr\u00e9kopa”,“year”:“2011”,“unstructured”:“Pr\u00e9kopa,A.、Yoda,K.和Subasi,M.(2011)。概率约束随机规划中的一致拟凹性。Operations Research Letters,39(1),188\u2013192.“,”journal-title“:”Operations Resource Letters“},{“key”:“5458_CR34”,“doi-asserted-by”:“crossref”,“doi”:“10.1002\/9780470316887”,“volume-title”:“Markov决策过程:离散随机动态规划”,“author”:“M Puterman”,“year”:“1994”,“unstructured”:“Puterman,M.(1994)马尔可夫决策过程:离散随机动态规划。纽约:Wiley。“},{”key“:”5458_CR35“,”unstructured“:”Rummery,G.A.,&Niranjan,M.(1994)。使用连接主义系统的在线Q-学习。技术代表CUED\/F-INFENG\/TR 166,剑桥大学工程系。“}数理统计的逼近定理(第34卷)。威利在线图书馆。“,”DOI“:”10.1002\/9780470316481“},{“key”:“5458_CR37”,“DOI-asserted-by”:“crossref”,“unstructured”:“Szepesv\u00e1ri,C.(2010).强化学习算法.Morgan and Claypool。”,“DOI”:“10.2200\/S00268ED1V01Y201005AIM009”}Lelermier,E.(2013)互动式q学习,奖励有序,导师不可靠。在ECML关于强化学习与广义反馈的研讨会上:超越数字奖励。“},{”issue“:”3“,”key“:”5458_CR39“,”first-page“:”229“,”volume“:“8”“,”author“:”R Williams“,”year“:”1992“,”unstructured“:”Williams,R.(1992)。连接强化学习的简单统计梯度算法。机器学习,8(3),229\u2013256卷:“25”,“作者”:“A Wilson”,“年份”:“2012”,“非结构化”:“Wilson,A.,Fern,A.,&Tadepalli,P.(2012)。从轨迹偏好查询中进行策略学习的贝叶斯方法。《神经信息处理系统进展》,25,1142\u20131150.“,“journal-title”:“神经信息处理体系进展”},{“issue”:“5”,“key”:“5458_CR41”,“doi-asserted-by”:“crossref”,“first-page”:“1538”,“doi”:“10.1016\/j.jcss.2011.12.028”,“volume”:”78“author”:“Y Yue”,“year”:“2012”,“unstructured”:“Yu,Y.,Broder,J.,Kleinberg,R.,&Joachims,T.(2012)。k型武装决斗强盗问题。《计算机与系统科学杂志》,78(5),1538\u20131556癌症临床试验强化学习设计。《医学统计学》,28(26),3294\u20133315.“,”journal-title“:”Statistics in Medicine“}],”container-title”:[“机器学习”],”original-title:[],“语言”:“en”,“链接”:[{“URL”:“http://link.springer.com\/content\/pdf\/10007\/s10994-014-5458-8.pdf”,“内容类型”:“application\/pdf”、“content-version”:“vor”,“intended-application”:“”text-mining“},{“URL”:“http://\/link.springer.com/article\/10.1007\/s10994-014-5458-8\/fulltext.html”,“内容类型”:“text\/html”,“content-version”:“vor”,“intended-application”:“text-mining”},}“URL“:”http://\/llink.springer\com/content\/pdf\/10.10007\/s10994-014-5458“,”内容类型“:”未指定“,”content-version“:”vor“,”预期应用程序“:”相似性检查“}”,“存放”:{“日期-部分”:[[2019,8,12]],“日期-时间”:“2019-08-12T05:36:49Z”,“时间戳”:1565588209000},“分数”:1,“资源”:{“主要”:{-“URL”:“http://link.springer.com\/10.1007\/s10994-014-5458-8”}},”副标题“:[],”短标题“:[],”发布“:{”日期-部分“:[[2014,7,2]]},“references-count”:42,“journal-issue”:{“issue”:“3”,“published-print“:{”date-parts“:[[2014,12]]}},”alternative-id“:[”5458“],”URL“:”http://\/dx.doi.org\/10.1007\/s10994-014-5458-8“,”relationship“:{},“ISSN”:[”0885-6125“,”1573-0565“],“ISSN-type”:[{“value”:“0885-6125',”type“:”print“},{“值”:“1573-056565”,“类型”:“”电子“}”,“主题”:[],“已发布”:{“日期部分”:[[2014,7,2]}}}