{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期部分”:[[2024,9,9]],“日期时间”:“2024-09-09T08:27:11Z”,“时间戳”:1725870431460},“出版商位置”:“查姆”,“参考计数”:35,“出版者”:“斯普林格国际出版”,“isbn-type”:[{“类型”:”打印“,“值”:“9783319493961”},{“类型”:“电子”,“value”:“9783319493978”}],“license”:[{“start”:{“date-parts”:[[2016,1,1]],“date-time”:“2016-01-01T00:00:00Z”,“timestamp”:1451606400000},“content-version”:“unspecified”,“delay-in-days”:0,“URL”:“http://www.springer.com\/tdm”},{“start”:{“date-parts”:[2016,1]]T00:00:00Z“,”timestamp“:1451606400000},”content-version“:”tdm“,“delay-in-days”:0,“URL”:“https:\\/www.springernature.com//gp\researters\/text-and-data-mining”},{“start”:{“date-parts”:[[2016,1,1]],“date-time”:“2016-01-01T00:00:00Z”,“timestamp”:1451606400000},“content-version”:“vor”,“delay-in-days“:0,”URL“https://www.sprinternature.com//gp\researders\/text-and-data-mining”“}],”内容域“:{”域“:[“link.springer.com”],“crossmark-restriction”:false},“short-container-title”:[],“published-print”:{“date-parts”:[[2016]]},”DOI“:”10.1007\/978-3-319-49397-8_20“,”type“:”book-chapter“,”created“:{”date-part“:[2016,11,9]],”date-time“:”2016-11-09T06:20:42Z“,”timestamp“:1478672442000}”,“page”:“231-24 2“,”更新策略“:“http://\/dx.doi.org\/10.1007\/springer_crossmark_policy”,“source”:“Crossref”、“is-referenced-by-count”:0,“title”:[“From Preference-Based to Multiobjective Sequential Decision-Making”],“prefix”:“10.1007”,”author“:[{”given“:”Paul“,“family”:“Weng”,“sequence”:“first”,“affiliation”:[]}],“member”:“297”,“published-on-line”:{“date-parts”:[2016,11,10]]},“reference”:[{“issue”:“13”,“key”:“20_CR1”,“doi asserted by”:“publisher”,“first page”:“1608”,“doi”:“10.1177\/027336491037199”,“volume”:“29”,“author”:“P Abbeel”,“year”:“2010”,“nonstructured”:“Abbeel,P.,Coates,A.,Ng,A.Y.:通过学徒学习实现自主直升机特技飞行。Int.J.Rob.Res.29(13),1608\u20131639(2010)”,“journal-title”:“Int.J.Rob.Res.”},{“key”:“20_CR2”,“series-title”:《计算机科学讲义(人工智能讲义)》,“doi-asserted-by”:“publisher”,“first page”:《116》,“doi”:“10.1007\/978-3642-33486-3_8”,“volume-title“:数据库中的机器学习和知识发现”,“author”:“R Akrour”,“year”:“2012”,“非结构化”:“Akrour,R.,Schoenauer,M.,Sebag,M.:APRIL:基于主动偏好学习的强化学习。摘自:Flach,P.A.,Bie,T.,Cristianini,N.(编辑)ECML PKDD 2012。LNCS(LNAI),第7524卷,第116\u2013131页。施普林格,海德堡(2012)。doi:10.1007\/978-3642-33486-3_8“},{“key”:“20_CR3”,“doi-asserted-by”:“crossref”,“unstructured”:“Barrett,L.,Narayanan,S.:学习具有多个标准的所有最优策略。In:ICML(2008)”,“doi”:“10.1145\/1390156.1390162”},}“key:”20_CR4“,“unsructured“:”Busa-Fekete,R.,Sz\u00f6renyi,B.,Weng,P.,Cheng,W.,H\u00fcllermier,E.:基于偏好的强化学习。In:强化学习欧洲研讨会,Dagstuhl Seminar(2013)“},{“key”:“20_CR5”,“unstructured”:“Busa-Fekete,R.,Sz\u00f6renyi,B.,Weng,P.,Cheng,W.,H\u00fcllermier,E.:基于噪声偏好自适应采样的Top-k选择。In:Marchine Learning国际会议(ICML)(2013)doi-asserted-by“:”publisher“,”first page“:”327“,”doi“:”10.1007\/s10994-014-5458-8“,“volume”:“97”,“author”:“R Busa-Fekete”,“year”:“2014”,“unstructured”:“Busa-Fekete,R.,Szorenyi,B.,Weng,P.,Cheng,W.,H\u00fcllermier,E.:基于偏好的强化学习:使用基于偏好的Racing算法进行进化直接策略搜索。机器。学习。97(3),327\u2013351(2014)“,“期刊标题”:“马赫数。学习。“},{”key“:”20_CR7“,”series-title“:”计算机科学讲义“,”doi-asserted-by“:”publisher“,”first page“:“325”,”doi“:”10.1007\/11672142_26“,”volume-title“:“STACS 2006”,”author“:”K Chatterjee“,”year“:”2006“,”unstructured“:”Chatterjee,K.,Majumdar,R.,Henzinger,T.A.:多目标马尔可夫决策过程。收录:Durand,B.,Thomas,W.(编辑)STACS 2006。LNCS,第3884卷,第325\u2013336页。斯普林格,海德堡(2006)。doi:10.1007\/11672142_26“},{“key”:“20_CR8”,“unstructured”:“Dud\u00edk,M.,Hofmann,K.,Schapire,R.E.,Slivkins,A.,Zoghi,M.:背景决斗强盗。In:COLT(2015)”},}“issue”:“1”,“key“:”20_CR9“,”doi-asserted-by“:”publisher“,”first page“:“123”,“doi”:“10.1007\/s10994-012-5313-8”,“”卷“:”89“,”作者“:”J F\u00fcrnkranz“,”年份“:”2012“,”非结构化“:”F\u00fcrnkranz,J.,H\u00ffllermier,E.,Cheng,W.,Park,S.:基于偏好的强化学习:形式化框架和策略迭代算法。机器。学习。89(1),123\u2013156(2012)“,“新闻标题”:“马赫。学习。“},{”key“:”20_CR10“,”unstructured“:”G\u00e1bor,Z.,Kalm\u00e 1r,Z..,Szepesv\u00e-1ri,C.:多准则强化学习。In:Proceedings of International Conference of Machine learning(1998)“}”,{“key”:“20_CR11”,“series-title”:“计算机科学(LNCS)课堂讲稿”,“doi-asserted-by”:“publisher”,“first page”:”139“,“doi”:“”10.1007\/978-3-319-23114-3_9“,“volume-title”:“算法决策理论”,“author”:“H Gilbert”,“year”:“2015”,“unstructured”:“Gilbert,H.,Spanjaard,O.,Viappiani,P.,Weng,P.:减少交互式值迭代中的查询数量。收录:Walsh,T.(编辑)ADT 2015。(LNAI),第9346卷,第139\u2013152页。斯普林格,海德堡(2015)。doi:10.1007\/978-3-319-23114-3_9“},{”key“:”20_CR12“,”非结构化“:”Gilbert,H.,Spanjaard,O.,Viappiani,P.,Weng,P.:用斜对称双线性效用函数求解MDP。In:IJCAI,pp.1989\u20131995(2015)“},{”key“:”20_CR13“,”非结构化“:”Gretton,C.,Price,D.,Thiebaux,S.:非马尔可夫报酬决策过程解方法的实现和比较。在:UAI,第19卷,第289\u2013296(2003)“},{“key”:“20_CR14”,“非结构化”:“Lizotte,D.J.,Bowling,M.,Murphy,S.A.:随机对照试验分析的多个奖励函数的有效强化学习。在:ICML(2010)”},{“key”:“20_CR15”,“doi asserted by”:“publisher”,“首页”:“529”,“doi”:“10.1038\/nature14236”,“volume”:“518“,“作者”:“V Mnih”,“年份”:“2015年”,“非结构化”:“Mnih,V.,Kavukcuoglu,K.,Silver,D.,Rusu,A.A.,Veness,J.,Bellemare,M.G.,Graves,A.,Riedmiller,M.,Fidjeland,A.K.,Ostrovski,G.,Petersen,S.,Beattie,C.,Sadik,A.,Antonoglou,I.,King,H.,Kumaran,D.,Wierstra,D.,Legg,S.和Hassabis,D.:通过深度强化学习进行人性化控制。Nature 518,529\u2013533(2015)“,“journal-title”:“Nature”},{“key”:“20_CR16”,“unstructured”:“Ng,A.,Russell,S.:逆强化学习算法。In:ICML.Morgan Kaufmann(2000)”}、{“key”:《20_CR17》,“series-title”:《计算机科学讲义(人工智能讲义)》,“doi-asserted-by”:“publisher”,“first page”:190”,“DOI”:“10.1007\/978-3642-24873-3_15”,“volume-title”:“算法决策理论”,“author”:“W Ogryczak”,“year”:“2011”,“unstructured”:“Ogrycsak,W.,Perny,P.,Weng,P.:关于最小化多目标Markov决策过程中的有序加权遗憾。收录:Brafman,R.I.,Roberts,F.S.,Tsouki\u00e0s,A.(编辑)ADT 2011。LNCS(LNAI),第6992卷,第190\u2013204页。斯普林格,海德堡(2011)。doi:10.1007\/978-3642-24873-3_15“},{“key”:“20_CR18”,“doi-asserted-by”:“publisher”,“first page”:”1021“,“doi”:“10.1142\/S029622013400075”,“volume”::“12”,“author”:“W Ogryczak”,“year”:“2013”,“unstructured”:“Ogrycsak,W.,Perny,P.,Weng,P.:多目标Markov决策过程的折衷编程方法。Int.J.Inf。Technol公司。Decis公司。Making 12,1021\u20131053(2013)“,“期刊标题”:“国际期刊信息技术”。Decis公司。Making“},{”key“:”20_CR19“,”unstructured“:”Perny,P.,Weng,P.:关于在多目标马尔可夫决策过程中寻找折衷解。in:欧洲人工智能会议(ECAI)(2010)偏好处理进展多学科研讨会(MPREF)“}”,{“key”:“20_CR20”,“unstructure”:“Perny,P.,Weng,P.、Goldsmith,J.、Hanna,J.:多目标Markov决策过程中Lorenz最优解的近似。In:国际人工智能不确定性会议(2013)“},{“key”:“20_CR21”,“doi-asserted-by”:“publisher”,“doi”:“10.1002\/9780470316887”,“volume-title”:“Markov决策过程:离散随机动态规划”,“author”:“M Puterman”,“year”:“1994”,“unstructured”:“Puterman,M.:马尔可夫决策过程:离散随机动态规划。Wiley,Hoboken(1994)“},{“key”:“20_CR22”,“unstructured”:“Regan,K.,Boutiler,C.:为马尔可夫决策过程引出加性奖励函数。收录于:IJCAI,pp.2159\u20132164(2011)”},},“key“:”20_CR23“,“unsructured“:”Regan,K,Boutile,C.:对有回报的MDP进行稳健的在线优化。收录自:IJCAI,pp 2165\u2013211(2011)20_CR24“,”doi-asserted-by“:”crossref“,”first-page“:”67“,”doi“:”10.1613\/jair.3987“,”volume“:”48“,”author“:”D Roijers“,”year“:”2013“,”unstructured“:”Roijers-D.,Vamplew,P.,Whiteson,S.,Dazeley,R.:多目标顺序决策调查。J.阿蒂夫。智力。Res.48,67\u2013113(2013)“,“期刊标题”:“J.Artif。智力。Res.“}”,{“key”:“20_CR25”,“doi asserted by”:“publisher”,“first page”:“326”,“doi”:“10.1007\\BF02591870”,“volume”:“26”,“author”:“R Steuer”,“year”:“1983”,“nonstructured”:“Steuer,R.,Choo,E.U.:用于多目标编程的交互式加权Tchebycheff过程。Math.Program.26326\u2013344(1983)”,“journal title”:“Math.Program.”},{”key“:“20_CR26”,“首页”:“2413”,“卷”:“10”,“作者”:“AL Strehl”,“年份”:“2009”,“非结构化”:“Strehl,A.L.,Littman,M.L.:有限MDP中的强化学习:PAC分析。J.马赫。学习。Res.10,2413\u20132444(2009)“,“期刊标题”:“J.Mach。学习。Res.“},{“volume-title”:“强化学习:导论”,“year”:“1998”,“author”:“R Sutton”,“key”:“20_CR27”,“unstructured”:“Sutton,R.,Barto,A.:强化学习:简介。麻省理工学院出版社,剑桥(1998)”},}“issue”:“3”,“key”:《20_CR28》,“doi-asserted-by”:“publisher”,“first page”:”58“,“doi”:“10.1145\/20330.203343”,“volume”:,“作者:“G Tesauro”,“year”:“1995”,“unstructured”:“Tesaura,G:时间差异学习和TD-Gammon。Commun公司。ACM 38(3),58\u201368(1995)“,“新闻标题”:“Commun。ACM“},{“key”:“20_CR29”,“doi-asserted-by”:“crossref”,“unstructured”:“Weng,P.:有序奖励的马尔可夫决策过程:基于参考点的偏好。国际自动计划与调度会议(ICAPS),第21卷,第282\u2013289页(2011)”,“doi”:“10.1609\/ICAPS.v21i1.13448”}翁,P.:马尔可夫决策过程的顺序决策模型。In:欧洲人工智能会议(ECAI),第20卷,第828\u2013833页(2012)“},{“key”:“20_CR31”,“unstructured”:“Weng,P.,Zanuttini,B.:未知报酬的Markov决策过程的交互式值迭代。In:IJCAI(2013)”},},“key“:”20_CR32“非结构化”:“Weng,P.、Busa-Fekete,R.、H\u00fcllermier,E.:互动式Q-学习,具有顺序奖励和不可靠的导师。在:ECML\/PKDD研讨会强化学习与广义反馈,2013年9月”},{“key”:“20_CR33”,“doi-asserted-by”:“publisher”,“first page”:”639“,“doi”:“10.1016\/0022-247X(82)90122-6”,“volume”::“89”,“author”:“D White”,“year”:“1982”,“unstructured”:“White,D.:多目标无穷大折现马尔可夫决策过程。J。数学。分析。应用程序。89,639\u2013647(1982)“,“新闻标题”:“数学杂志”。分析。应用程序。“},{”key“:”20_CR34“,”doi-asserted-by“:”crossref“,”unstructured“:”Wray,K.H.,Zilberstein,S.,Mouaddib,A.I.:具有条件词典奖励偏好的多目标MDP。In:AAAI(2015)“,”doi“:”10.1609\/AAAI.v29i1.9647“}:“10.1016\/j.jcss.2011.12.028”,“卷:“78”,“作者”:“Y Yue”,“年份”:“2012”,“非结构化”:“Yue,Y.,Broder,J.,Kleinberg,R.,Joachims,T.:k武装决斗强盗问题。J.计算。系统。科学。78(5),1538\u20131556(2012)“,“期刊标题”:《计算杂志》。系统。科学。“}],”container-title“:[”计算机科学讲义“,”人工智能多学科趋势“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/link.springer.com/content\/pdf\/10.1007\/978-3-319-49397-8_20“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}]“存放“:{“date-parts”:[[2024,3,13]],“date-time”:“2024-03-13T15:49:59Z”,“timestamp”:1710344999000},“score”:1,“resource”:{”primary“:{“URL”:“https:\/\/link.springer.com\/10.1007\/978-3-319-49397-8_20”},”subtitle“:[],”shorttitle“:[],”issued“{”date-part“:[2016]]},319493961“,”9783319493978“],”references-count“:35,”URL“:”http:\/\/dx.doi.org/10.1007\/978-3-319-49397-8_20“,“关系”:{},“ISSN”:[“0302-9743”,“1611-3349”],“ISSN类型”:[{“类型”:“打印”,“值”:“0302-9743”},{“类型”:“电子”,“值”:“1611-3349”}],“主题”:[],“已发布”:{“日期部分”:[[2016]]},“断言”:[{“值”:“2016年11月10日”,“order“:1,”name“:”first_online“,”label“:”first online“,”group“:{”name“:”ChapterHistory“,”label“:”Chapter History”}},{“value”:“MIWAI”,“order”:1,“name”:“conference_acrombit”,“label”:“conference缩写”,“group”:{“name”:“ConferenceInfo”,“标签”:“会议信息”}}}会议名称”,“组”:{“名称”:“ConferenceInfo”,“标签”:“会议信息”}},{“值”:“清迈”,“顺序”:3,“名称”:“会议城市”,“标签”:“会议城市”,“组”:{“名称”:“ConferenceInfo”,“标签”:“会议信息”},{“值”:“泰国”,“顺序”:4,“名称”:“会议国家”,“标签”:“会议国家”,“组”:{“名称”:“会议信息“,”标签“:”会议信息“}},{“value”:“2016”,“order”:5,“name”:“Conference_year”,“label”:“会议年份”,“group”:{“name”:“ConferenceInfo”,“table”:“Conferency Information”}}、{“value”:“2016.12”,“订单”:7,“name“Conference_start_date”,”标签:“会议开始日期”,“group”:{“name”,“ConfernceInfo”会议信息“}},{“value”:“2016年12月9日”,“order”:8,“name”:“Conference_end_date”,“label”:“会议结束日期”,“group”:miwai2016“,”order“:10,”name“:”conference_id“,”label“:”conference id“,”group“:{”name“:”ConferenceInfo“,”标签“:”会议信息“}}]}}