{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期-部件”：[[2024,6,13]]，“日期-时间”：“2024-06-13T16:39:03Z”，“时间戳”：1718296743810}，“引用-计数”：42，“出版商”：“Springer Science and Business Media LLC”我”：“2014-07-02T00:00:00Z”，“timestamp”：140425920000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“http://www.springer.com/tdm”}]，“content-domain”：{“domain”:[“link.springer.com”]，“crossmark-restriction”：false}，”short-container-title“：[”Mach-Learn“]，”published-print“：{”date-parts“：[2014,12]]}，4-5458-8“，”type“：”journal-article“，”created“：{“date-parts”：[[2014,7,2]，“date-time”：“2014-07-02T03:34:55Z”，“timestamp”：1404272095000}，“page”：“327-351”，“update-policy”：”http://\/dx.doi.org\/10.1007\/springer_crossmark_policy“，”source“Crossref”，“is-referenced-by-count”：18，“title”：[“基于偏好的强化学习：使用基于偏好的竞赛算法进行进化直接策略搜索”]，“前缀”：“10.1007”，“卷”：“97”，“作者”：[{“给定”：“R\u00f3bert”，“家族”：“Busa-Fekete”，“序列”：“第一”，“从属”：[]}，{“given”：“Paul”，“family”：“Weng”，“sequence”：“additional”，“affiliation”：[]}，{“fixed”：“Weiwei”，“家族”：“Cheng”，”sequence“：”additional“，”affiliance“：[]{”given“：”Eyke“，”family“：”H\u00fcllermier“，”se序列“：”附加“，”从属关系：[]2]，“member”：“297”，“published on”：{“date-parts”：[[2014,7,2]]}，“reference”：[{“key”：“5458_CR1”，“doi-asserted-by”：“crossref”，“unstructured”：“Abbeel，P.，&Ng，A.（2004）。通过反向强化学习进行学徒学习。第21届机器学习国际会议论文集。纽约，NY:ACM。”，“DOI”：“10.1145\/1015330.1015430”}，{“key”：“5458_CR2”，“DOI-asserted-by”：“crostref”，“非结构化”：“Akrour，R.，Schoenauer，M.，&Sebag，M.（2011）。基于偏好的政策学习。在《2011年欧洲机器学习与数据库中知识发现的原理和实践会议论文集》（Proceedings ECMLPKDD 2011，European conference on machine learning and principles and practice of knowledge discovery In database）（第12\u201327页）中。柏林：斯普林格出版社。”，“DOI”：“10.1007\/978-3642-23780-5_11”}，{“key”：“5458_CR3”，“DOI-asserted-by”：“crossref”，“非结构化”：“Akrour，R.，Schoenauer，M.，&Sebag，M.（2012）。4月：基于主动偏好学习的强化学习。《2012年欧洲机器学习会议论文集》，数据库中知识发现的原理和实践（第116\u2013131页）。柏林：施普林格。”，“DOI”：“10.1007\/978-3642-33486-3_8”}，{“关键”：“5458_CR4”，“非结构化”：“Akrour，R.，Schoenauer，M.，&Sebag，M.（2013）。交互式机器人教育。在ECML强化学习研讨会上，广义反馈：超越数字奖励。”}，{“问题”：“3”，“键”：“5458 _CR5”，“doi-asserted-by”：“crossref”，“首页”：“239”，“doi”：“10.1016\/0167-7152（94）00072-G”，《卷》：“22”，“作者”：“MA Arcones”，“year”：“1995”，“unstructured”：“Arcones，M.A.（1995）。u-statistics和u-process的Bernstein型不等式。statistics&Probability Letters，22（3），239\u2013247.”，“journal-title”：“statistics-Probability Letters”}，{“key”：“5458_CR6”，“doi-asserted-by”：“crossref”，“非结构化”：“Audibert，J.，Munos，R.，&Szepesv\u00e1ri，C.（2007）。在随机环境中调整土匪算法。算法学习理论论文集（第150\u2013165页）。”，“DOI”：“10.1007\/978-3-540-75225-7_15”}，{“key”：“5458_CR7”，“DOI-asserted-by”：“crossref”，“first page”：”235，“DOI:“10.1023\/A:1013689704352”，“volume”：《47》，“author”：“P Auer”，“year”：“2002”，“unstructured”：“Auer，P.，Cesa-Bianchi，N.，&Fischer，P.（2002）.多武装盗贼问题的有限时间分析.机器学习，47，235\u2013256.”，“journal-title”：“机器学习”}，{“key”：“5458_CR8”，“doi-asserted-by”：“crossref”，“first-page:“3”，“doi”：“10.1023\/A:1015059928466”，“volume”:“1”，“author”：“H Beyer”，“年份”：“2002年”，“非结构化”：“Beyer，H.，&Schwefel，H.（2002）.进化策略-综合介绍.自然计算，1,3\u201352.”，“新闻标题”：“自然计算”}，{“key”：“5458_CR9”，“doi-asserted-by”：“crossref”，“unstructured”：“Cheng，W.，F\u00fcrnkranz，J.，H\u00FCllermier，E.，&Park，S.（2011）基于偏好的政策迭代：利用偏好学习进行强化学习。在《2011年欧洲机器学习与数据库中知识发现的原理和实践会议论文集ECMLPKDD》中（第414\u2013429页）。柏林：斯普林格。“，”DOI“：”10.1007\/978-3642-23780-5_30“}，{”key“：”5458_CR10“，”volume-title“：”解决多目标问题的进化算法“，”author“：”C Coello“，”year“：”2007“，”unstructured“：”Coello，C.，Lamont，G.，&Van Veldhuizen，D.（2007）。解决多目标的进化算法。Berlin:Springer。“}doi-asserted-by“：”crossref“，”unstructured“：”Even-Dar，E.，Mannor，S.，&Mansour，Y.（2002）。多武装盗贼和马尔可夫决策过程的PAC界。第15届计算学习理论年会论文集（第255\u2013270页）。柏林：斯普林格。“，”DOI“：”10.1007\/3-540-45435-7_18“}，{”key“：”5458_CR12“，”DOI-asserted-by“：”crossref“，”first page“：“31”，“DOI”：“10.1016\/0022-2496（82）90034-7”，“volume”：“26”，“author”：“P Fishburn”，“year”：“1982”，“unstructured”：“Fishbuurn，P.（1982）。非传递性可测量效用。数学心理学杂志，26，31\u201367。”，“，”Journal-title“：”《数学心理学杂志》，{“键”：“5458_CR13”，“卷标题”：“博弈论”，“作者”：“D Fudenberg”，“年份”：“1991”，“非结构化”：“Fudenberg，D.，&Tirole，J.（1991）。博弈论。马萨诸塞州剑桥：麻省理工学院。”}，{“键”：“5458_CR14”，“卷标题”：“偏好学习”，“年份”：“2011”，“非结构化”：“F\u00fcrnkranz，J.，&H\u00fcllermeier，E.（编辑）. (2011). 偏好学习。柏林：斯普林格。“｝，｛”issue“：”1\u20132“，”key“：”5458_CR15“，”doi asserted by“：”crossref“，”首页“：”123“，”doi“：”10.1007\\s10994-012-5313-8“，”volume“：”89“，”author“：”J F\u00fcrnkranz“，”year“：”2012“，”nonstructured“：”F\u00fcrnkranz，J.，H\u00fcllermeier，E.，Cheng，W.，&Park，S.（2012）基于偏好的强化学习：一个形式化框架和策略迭代算法。机器学习，89（1\u20132），123\u2013156.“，”journal-title“：”Machine Learning“}，{“key”：“5458_CR16”，“doi-asserted-by”：“crossref”，“unstructured”：“Hansen，N.，&Kern，S.（2004）.评估CMA进化策略对多模态测试函数的影响.在自然-PPSN VIII并行问题解决中（第282\u2013291页）.柏林：Springer”，“doi”：“10.1007 \/978-3-540-30217-9_29“}，{“key”：“5458_CR17”，“unstructured”：“Heidrich-Meisner，V.，&Igel，C.（2008）。用于嘈杂山地车问题的可变度量强化学习方法。强化学习的最新进展（第136\u2013150页）。柏林：施普林格。”}，}“key:”5458_CR18“，”doi-asserted-by“：”crossref“，”unstructure“：”Heidrich-Meisner，V.和Igel，C.（2009年）。霍夫丁和伯恩斯坦争夺进化直接政策搜索中的政策选择。第26届机器学习国际会议论文集（第401\u2013408页）。纽约州纽约市：ACM。“，”DOI“：”10.1145\/1553374.1553426“}，{”issue“：”4“，”key“：”5458_CR19“，”DOI-asserted-by“：”crossref“，”first page“：“152”，“DOI”：“10.1016\/j.jalgor.2009.04.002”，“volume”：“64”，“author”：“V Heidrich-Meisner”，“year”：“2009”，“unstructured”：“Heidrich-Meisner，V.，&Igel，C.（2009）情景强化学习的神经进化策略。算法杂志，64（4），152\u2013168.“，”Journal-title“：”Journal of Algorithms“}，{“issue”：“1”，“key”：“5458_CR20”，“doi-asserted-by”：“crossref”，“first page”：”133“，”doi“：”10.1214\/aoms\/1177729491“，”volume“：”23“，”author“：”J Hemelrijk“，”year“：”1952“，”unstructured“：”Hemellijk，J.（1952）。关于Wilcoxon\u2019s双样本测试的注释（如果存在领带）。《数理统计年鉴》，23（1），133\u2013135。“，”journal-title“：《数理统计学年鉴》”}，{“key”：“5458_CR21”，“doi-asserted-by”：“crossref”，“first-page”：“13”，“doi”：“10.1080\/01621459.1963.10500830”，“volume”：《58》，“author”：“W Hoeffing”，“year”：“1963”，“unstructured”：“Hoeffining，W.（1963）有界随机变量和的概率不等式。《美国统计协会杂志》，58，13\u201330.“，”Journal-title“：”Journal of the American Statistical Association“}，{”key“：”5458_CR22“，”unstructured“：”Kalyanakrishnan，S.，Tewari，A.，Auer，P.，&Stone，P.（2012）随机多武装匪徒中的.PAC子集选择。第二十届机器学习国际会议论文集（ICML 2012）（第655\u2013662页）。全能女。“}，{”key“：”5458_CR23“，”unstructured“：”Kreweras，G.（1961）。Sur une possibilit\u00e9 de rationaliser les intransititive\u00e 9s.In La d\u00e9cision，CNRS。“}”，{“key”：“5458_CR2”，“unstructure”：“Lagoudakis，M.，&Parr，R.（2003）强化学习作为分类：利用现代分类器。第20届机器学习国际会议论文集（第424\u2013431页）。AAAI出版社。“}，{”key“：”5458_CR25“，”doi-asserted-by“：”crossref“，”doi“：”10.1007\/978-3642-60805-6“，”volume-title“：”锦标赛解决方案和多数投票“，”author“：”J Laslier“，”year“：”1997“，”unstructured“：”Laslier，JLazaric，A.、Ghavamzadeh，M.和Munos，R.（2010年）。基于分类的策略迭代算法分析。第27届机器学习国际会议论文集（第607\u2013614页）。全能女。}，{“key”：“5458_CR27”，“unstructured”：“Maron，O.，&Moore，A.（1994）。Hoeffing races:加速分类和函数近似的模型选择搜索。《神经信息处理系统进展》（第59\u201366页）。Morgan Kaufmann。”}，“issue”：“1”，“key“：”5458_CR2“，”doi-asserted-by“：”crossref“，”first page“：“193”，“doi”：“10.1023\/A:1006556606079“，”卷“：”5“，”作者“：”O Maron“，”年份“：”1997“，”非结构化“：”Maron，O.，&Moore，A.（1997）。竞赛算法：懒惰学习者的模型选择。《人工智能评论》，5（1），193\u2013225纽约州纽约市：ACM。“，”DOI“：”10.1145\/1390156.1390241“}，{“key”：“5458_CR30”，“DOI-asserted-by”：“crossref”，“DOI”：“10.1017\/CCOL0521360552”，“volume-title”：“合作决策的公理”，“author”：“H Moulin”，“year”：“1988”，“unstructured”：“Moulin，H.（1988）。合作决策的公理。剑桥：剑桥大学出版社。”}，}“issue”：“4”，“key“：”5458_CR31“，”doi-asserted-by“：”crossref“，”first page“：”369“，”doi“：”10.1162\/evco.1994.2.4.369”，“volume”：“2”，“author”：“A Ostermeier”，“year”：“1994”，“unstructured”：“Ostermier，A.，Gawelczyk，A.，&Hansen，N.（1994）。进化策略自我适应的一种疯狂方法。进化计算，2（4），369\u2013380.“，”journal-title“：”Evolutionary Computation“}，{”key“：”5458_CR32“，”first-page“：”1903“，”volume“：“23”，”author“：”T Peel“，”year“：”2010“，”unstructured“：”Peel，T.，Anthoine，S.，&Ralaivola，L.（2010）u-统计的经验Bernstein不等式。神经信息处理系统进展，231903\u20131911。”，“journal-title”：“神经信息处理体系进展”}，{“issue”：“1”，“key”：“5458_CR33”，“doi-asserted-by”：“crossref”，“first page”：”188“，“doi”：“10.1016\/j.orl.2011.03.007”，“volume”：：“39”，“author”：“A Pr\u00e9kopa”，“year”：“2011”，“unstructured”：“Pr\u00e9kopa，A.、Yoda，K.和Subasi，M.（2011）。概率约束随机规划中的一致拟凹性。Operations Research Letters，39（1），188\u2013192.“，”journal-title“：”Operations Resource Letters“}，{“key”：“5458_CR34”，“doi-asserted-by”：“crossref”，“doi”：“10.1002\/9780470316887”，“volume-title”：“Markov决策过程：离散随机动态规划”，“author”：“M Puterman”，“year”：“1994”，“unstructured”：“Puterman，M.（1994）马尔可夫决策过程：离散随机动态规划。纽约：Wiley。“}，{”key“：”5458_CR35“，”unstructured“：”Rummery，G.A.，&Niranjan，M.（1994）。使用连接主义系统的在线Q-学习。技术代表CUED\/F-INFENG\/TR 166，剑桥大学工程系。“}数理统计的逼近定理（第34卷）。威利在线图书馆。“，”DOI“：”10.1002\/9780470316481“}，{“key”：“5458_CR37”，“DOI-asserted-by”：“crossref”，“unstructured”：“Szepesv\u00e1ri，C.（2010）.强化学习算法.Morgan and Claypool。”，“DOI”：“10.2200\/S00268ED1V01Y201005AIM009”}Lelermier，E.（2013）互动式q学习，奖励有序，导师不可靠。在ECML关于强化学习与广义反馈的研讨会上：超越数字奖励。“}，{”issue“：”3“，”key“：”5458_CR39“，”first-page“：”229“，”volume“：“8”“，”author“：”R Williams“，”year“：”1992“，”unstructured“：”Williams，R.（1992）。连接强化学习的简单统计梯度算法。机器学习，8（3），229\u2013256卷：“25”，“作者”：“A Wilson”，“年份”：“2012”，“非结构化”：“Wilson，A.，Fern，A.，&Tadepalli，P.（2012）。从轨迹偏好查询中进行策略学习的贝叶斯方法。《神经信息处理系统进展》，25，1142\u20131150.“，“journal-title”：“神经信息处理体系进展”}，{“issue”：“5”，“key”：“5458_CR41”，“doi-asserted-by”：“crossref”，“first-page”：“1538”，“doi”：“10.1016\/j.jcss.2011.12.028”，“volume”：”78“author”：“Y Yue”，“year”：“2012”，“unstructured”：“Yu，Y.，Broder，J.，Kleinberg，R.，&Joachims，T.（2012）。k型武装决斗强盗问题。《计算机与系统科学杂志》，78（5），1538\u20131556癌症临床试验强化学习设计。《医学统计学》，28（26），3294\u20133315.“，”journal-title“：”Statistics in Medicine“}]，”container-title”：[“机器学习”]，”original-title:[]，“语言”：“en”，“链接”：[{“URL”：“http://link.springer.com\/content\/pdf\/10007\/s10994-014-5458-8.pdf”，“内容类型”：“application\/pdf”、“content-version”：“vor”，“intended-application”：“”text-mining“}，{“URL”：“http://\/link.springer.com/article\/10.1007\/s10994-014-5458-8\/fulltext.html”，“内容类型”：“text\/html”，“content-version”：“vor”，“intended-application”：“text-mining”}，}“URL“：”http://\/llink.springer\com/content\/pdf\/10.10007\/s10994-014-5458“，”内容类型“：”未指定“，”content-version“：”vor“，”预期应用程序“：”相似性检查“}”，“存放”：{“日期-部分”：[[2019,8,12]]，“日期-时间”：“2019-08-12T05:36:49Z”，“时间戳”：1565588209000}，“分数”：1，“资源”：{“主要”：{-“URL”：“http://link.springer.com\/10.1007\/s10994-014-5458-8”}}，”副标题“：[]，”短标题“：[]，”发布“：{”日期-部分“：[[2014,7,2]]}，“references-count”：42，“journal-issue”：{“issue”：“3”，“published-print“：{”date-parts“：[[2014,12]]}}，”alternative-id“：[”5458“]，”URL“：”http://\/dx.doi.org\/10.1007\/s10994-014-5458-8“，”relationship“：{}，“ISSN”：[”0885-6125“，”1573-0565“]，“ISSN-type”：[{“value”：“0885-6125'，”type“：”print“}，{“值”：“1573-056565”，“类型”：“”电子“}”，“主题”：[]，“已发布”：{“日期部分”：[[2014,7,2]}}}