{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期部分”：[[2024,9,9]]，“日期时间”：“2024-09-09T08:27:11Z”，“时间戳”：1725870431460}，“出版商位置”：“查姆”，“参考计数”：35，“出版者”：“斯普林格国际出版”，“isbn-type”：[{“类型”：”打印“，“值”：“9783319493961”}，{“类型”：“电子”，“value”：“9783319493978”}]，“license”：[{“start”：{“date-parts”：[[2016,1,1]]，“date-time”：“2016-01-01T00:00:00Z”，“timestamp”：1451606400000}，“content-version”：“unspecified”，“delay-in-days”：0，“URL”：“http://www.springer.com\/tdm”}，{“start”：{“date-parts”：[2016,1]]T00:00:00Z“，”timestamp“：1451606400000}，”content-version“：”tdm“，“delay-in-days”：0，“URL”：“https:\\/www.springernature.com//gp\researters\/text-and-data-mining”}，{“start”：{“date-parts”：[[2016,1,1]]，“date-time”：“2016-01-01T00:00:00Z”，“timestamp”：1451606400000}，“content-version”：“vor”，“delay-in-days“：0，”URL“https://www.sprinternature.com//gp\researders\/text-and-data-mining”“}]，”内容域“：{”域“：[“link.springer.com”]，“crossmark-restriction”：false}，“short-container-title”：[]，“published-print”：{“date-parts”：[[2016]]}，”DOI“：”10.1007\/978-3-319-49397-8_20“，”type“：”book-chapter“，”created“：{”date-part“：[2016,11,9]]，”date-time“：”2016-11-09T06:20:42Z“，”timestamp“：1478672442000}”，“page”：“231-24 2“，”更新策略“：“http://\/dx.doi.org\/10.1007\/springer_crossmark_policy”，“source”：“Crossref”、“is-referenced-by-count”：0，“title”：[“From Preference-Based to Multiobjective Sequential Decision-Making”]，“prefix”：“10.1007”，”author“：[{”given“：”Paul“，“family”：“Weng”，“sequence”：“first”，“affiliation”：[]}]，“member”：“297”，“published-on-line”：{“date-parts”：[2016,11,10]]}，“reference”：[｛“issue”：“13”，“key”：“20_CR1”，“doi asserted by”：“publisher”，“first page”：“1608”，“doi”：“10.1177\/027336491037199”，“volume”：“29”，“author”：“P Abbeel”，“year”：“2010”，“nonstructured”：“Abbeel，P.，Coates，A.，Ng，A.Y.：通过学徒学习实现自主直升机特技飞行。Int.J.Rob.Res.29（13），1608\u20131639（2010）”，“journal-title”：“Int.J.Rob.Res.”}，{“key”：“20_CR2”，“series-title”：《计算机科学讲义（人工智能讲义）》，“doi-asserted-by”：“publisher”，“first page”：《116》，“doi”：“10.1007\/978-3642-33486-3_8”，“volume-title“：数据库中的机器学习和知识发现”，“author”：“R Akrour”，“year”：“2012”，“非结构化”：“Akrour，R.，Schoenauer，M.，Sebag，M.：APRIL：基于主动偏好学习的强化学习。摘自：Flach，P.A.，Bie，T.，Cristianini，N.（编辑）ECML PKDD 2012。LNCS（LNAI），第7524卷，第116\u2013131页。施普林格，海德堡（2012）。doi:10.1007\/978-3642-33486-3_8“}，{“key”：“20_CR3”，“doi-asserted-by”：“crossref”，“unstructured”：“Barrett，L.，Narayanan，S.：学习具有多个标准的所有最优策略。In:ICML（2008）”，“doi”：“10.1145\/1390156.1390162”}，}“key:”20_CR4“，“unsructured“：”Busa-Fekete，R.，Sz\u00f6renyi，B.，Weng，P.，Cheng，W.，H\u00fcllermier，E.：基于偏好的强化学习。In：强化学习欧洲研讨会，Dagstuhl Seminar（2013）“}，{“key”：“20_CR5”，“unstructured”：“Busa-Fekete，R.，Sz\u00f6renyi，B.，Weng，P.，Cheng，W.，H\u00fcllermier，E.：基于噪声偏好自适应采样的Top-k选择。In：Marchine Learning国际会议（ICML）（2013）doi-asserted-by“：”publisher“，”first page“：”327“，”doi“：”10.1007\/s10994-014-5458-8“，“volume”：“97”，“author”：“R Busa-Fekete”，“year”：“2014”，“unstructured”：“Busa-Fekete，R.，Szorenyi，B.，Weng，P.，Cheng，W.，H\u00fcllermier，E.：基于偏好的强化学习：使用基于偏好的Racing算法进行进化直接策略搜索。机器。学习。97（3），327\u2013351（2014）“，“期刊标题”：“马赫数。学习。“}，{”key“：”20_CR7“，”series-title“：”计算机科学讲义“，”doi-asserted-by“：”publisher“，”first page“：“325”，”doi“：”10.1007\/11672142_26“，”volume-title“：“STACS 2006”，”author“：”K Chatterjee“，”year“：”2006“，”unstructured“：”Chatterjee，K.，Majumdar，R.，Henzinger，T.A.：多目标马尔可夫决策过程。收录：Durand，B.，Thomas，W.（编辑）STACS 2006。LNCS，第3884卷，第325\u2013336页。斯普林格，海德堡（2006）。doi:10.1007\/11672142_26“}，{“key”：“20_CR8”，“unstructured”：“Dud\u00edk，M.，Hofmann，K.，Schapire，R.E.，Slivkins，A.，Zoghi，M.：背景决斗强盗。In:COLT（2015）”}，}“issue”：“1”，“key“：”20_CR9“，”doi-asserted-by“：”publisher“，”first page“：“123”，“doi”：“10.1007\/s10994-012-5313-8”，“”卷“：”89“，”作者“：”J F\u00fcrnkranz“，”年份“：”2012“，”非结构化“：”F\u00fcrnkranz，J.，H\u00ffllermier，E.，Cheng，W.，Park，S.：基于偏好的强化学习：形式化框架和策略迭代算法。机器。学习。89（1），123\u2013156（2012）“，“新闻标题”：“马赫。学习。“}，{”key“：”20_CR10“，”unstructured“：”G\u00e1bor，Z.，Kalm\u00e 1r，Z..，Szepesv\u00e-1ri，C.：多准则强化学习。In:Proceedings of International Conference of Machine learning（1998）“}”，{“key”：“20_CR11”，“series-title”：“计算机科学（LNCS）课堂讲稿”，“doi-asserted-by”：“publisher”，“first page”：”139“，“doi”：“”10.1007\/978-3-319-23114-3_9“，“volume-title”：“算法决策理论”，“author”：“H Gilbert”，“year”：“2015”，“unstructured”：“Gilbert，H.，Spanjaard，O.，Viappiani，P.，Weng，P.：减少交互式值迭代中的查询数量。收录：Walsh，T.（编辑）ADT 2015。（LNAI），第9346卷，第139\u2013152页。斯普林格，海德堡（2015）。doi:10.1007\/978-3-319-23114-3_9“｝，｛”key“：”20_CR12“，”非结构化“：”Gilbert，H.，Spanjaard，O.，Viappiani，P.，Weng，P.：用斜对称双线性效用函数求解MDP。In：IJCAI，pp.1989\u20131995（2015）“｝，｛”key“：”20_CR13“，”非结构化“：”Gretton，C.，Price，D.，Thiebaux，S.：非马尔可夫报酬决策过程解方法的实现和比较。在：UAI，第19卷，第289\u2013296（2003）“｝，｛“key”：“20_CR14”，“非结构化”：“Lizotte，D.J.，Bowling，M.，Murphy，S.A.：随机对照试验分析的多个奖励函数的有效强化学习。在：ICML（2010）”｝，｛“key”：“20_CR15”，“doi asserted by”：“publisher”，“首页”：“529”，“doi”：“10.1038\/nature14236”，“volume”：“518“，“作者”：“V Mnih”，“年份”：“2015年”，“非结构化”：“Mnih，V.，Kavukcuoglu，K.，Silver，D.，Rusu，A.A.，Veness，J.，Bellemare，M.G.，Graves，A.，Riedmiller，M.，Fidjeland，A.K.，Ostrovski，G.，Petersen，S.，Beattie，C.，Sadik，A.，Antonoglou，I.，King，H.，Kumaran，D.，Wierstra，D.，Legg，S.和Hassabis，D.：通过深度强化学习进行人性化控制。Nature 518，529\u2013533（2015）“，“journal-title”：“Nature”}，{“key”：“20_CR16”，“unstructured”：“Ng，A.，Russell，S.：逆强化学习算法。In:ICML.Morgan Kaufmann（2000）”}、{“key”：《20_CR17》，“series-title”：《计算机科学讲义（人工智能讲义）》，“doi-asserted-by”：“publisher”，“first page”：190”，“DOI”：“10.1007\/978-3642-24873-3_15”，“volume-title”：“算法决策理论”，“author”：“W Ogryczak”，“year”：“2011”，“unstructured”：“Ogrycsak，W.，Perny，P.，Weng，P.：关于最小化多目标Markov决策过程中的有序加权遗憾。收录：Brafman，R.I.，Roberts，F.S.，Tsouki\u00e0s，A.（编辑）ADT 2011。LNCS（LNAI），第6992卷，第190\u2013204页。斯普林格，海德堡（2011）。doi:10.1007\/978-3642-24873-3_15“}，{“key”：“20_CR18”，“doi-asserted-by”：“publisher”，“first page”：”1021“，“doi”：“10.1142\/S029622013400075”，“volume”：：“12”，“author”：“W Ogryczak”，“year”：“2013”，“unstructured”：“Ogrycsak，W.，Perny，P.，Weng，P.：多目标Markov决策过程的折衷编程方法。Int.J.Inf。Technol公司。Decis公司。Making 12，1021\u20131053（2013）“，“期刊标题”：“国际期刊信息技术”。Decis公司。Making“}，{”key“：”20_CR19“，”unstructured“：”Perny，P.，Weng，P.：关于在多目标马尔可夫决策过程中寻找折衷解。in:欧洲人工智能会议（ECAI）（2010）偏好处理进展多学科研讨会（MPREF）“}”，{“key”：“20_CR20”，“unstructure”：“Perny，P.，Weng，P.、Goldsmith，J.、Hanna，J.：多目标Markov决策过程中Lorenz最优解的近似。In:国际人工智能不确定性会议（2013）“}，{“key”：“20_CR21”，“doi-asserted-by”：“publisher”，“doi”：“10.1002\/9780470316887”，“volume-title”：“Markov决策过程：离散随机动态规划”，“author”：“M Puterman”，“year”：“1994”，“unstructured”：“Puterman，M.：马尔可夫决策过程：离散随机动态规划。Wiley，Hoboken（1994）“}，{“key”：“20_CR22”，“unstructured”：“Regan，K.，Boutiler，C.：为马尔可夫决策过程引出加性奖励函数。收录于：IJCAI，pp.2159\u20132164（2011）”}，}，“key“：”20_CR23“，“unsructured“：”Regan，K，Boutile，C.：对有回报的MDP进行稳健的在线优化。收录自：IJCAI，pp 2165\u2013211（2011）20_CR24“，”doi-asserted-by“：”crossref“，”first-page“：”67“，”doi“：”10.1613\/jair.3987“，”volume“：”48“，”author“：”D Roijers“，”year“：”2013“，”unstructured“：”Roijers-D.，Vamplew，P.，Whiteson，S.，Dazeley，R.：多目标顺序决策调查。J.阿蒂夫。智力。Res.48，67\u2013113（2013）“，“期刊标题”：“J.Artif。智力。Res.“｝”，｛“key”：“20_CR25”，“doi asserted by”：“publisher”，“first page”：“326”，“doi”：“10.1007\\BF02591870”，“volume”：“26”，“author”：“R Steuer”，“year”：“1983”，“nonstructured”：“Steuer，R.，Choo，E.U.:用于多目标编程的交互式加权Tchebycheff过程。Math.Program.26326\u2013344（1983）”，“journal title”：“Math.Program.”｝，｛”key“：“20_CR26”，“首页”：“2413”，“卷”：“10”，“作者”：“AL Strehl”，“年份”：“2009”，“非结构化”：“Strehl，A.L.，Littman，M.L.：有限MDP中的强化学习：PAC分析。J.马赫。学习。Res.10，2413\u20132444（2009）“，“期刊标题”：“J.Mach。学习。Res.“}，{“volume-title”：“强化学习：导论”，“year”：“1998”，“author”：“R Sutton”，“key”：“20_CR27”，“unstructured”：“Sutton，R.，Barto，A.：强化学习：简介。麻省理工学院出版社，剑桥（1998）”}，}“issue”：“3”，“key”：《20_CR28》，“doi-asserted-by”：“publisher”，“first page”：”58“，“doi”：“10.1145\/20330.203343”，“volume”：，“作者：“G Tesauro”，“year”：“1995”，“unstructured”：“Tesaura，G：时间差异学习和TD-Gammon。Commun公司。ACM 38（3），58\u201368（1995）“，“新闻标题”：“Commun。ACM“}，{“key”：“20_CR29”，“doi-asserted-by”：“crossref”，“unstructured”：“Weng，P.：有序奖励的马尔可夫决策过程：基于参考点的偏好。国际自动计划与调度会议（ICAPS），第21卷，第282\u2013289页（2011）”，“doi”：“10.1609\/ICAPS.v21i1.13448”}翁，P.：马尔可夫决策过程的顺序决策模型。In：欧洲人工智能会议（ECAI），第20卷，第828\u2013833页（2012）“}，{“key”：“20_CR31”，“unstructured”：“Weng，P.，Zanuttini，B.：未知报酬的Markov决策过程的交互式值迭代。In：IJCAI（2013）”}，}，“key“：”20_CR32“非结构化”：“Weng，P.、Busa-Fekete，R.、H\u00fcllermier，E.：互动式Q-学习，具有顺序奖励和不可靠的导师。在：ECML\/PKDD研讨会强化学习与广义反馈，2013年9月”}，{“key”：“20_CR33”，“doi-asserted-by”：“publisher”，“first page”：”639“，“doi”：“10.1016\/0022-247X（82）90122-6”，“volume”：：“89”，“author”：“D White”，“year”：“1982”，“unstructured”：“White，D.：多目标无穷大折现马尔可夫决策过程。J。数学。分析。应用程序。89，639\u2013647（1982）“，“新闻标题”：“数学杂志”。分析。应用程序。“}，{”key“：”20_CR34“，”doi-asserted-by“：”crossref“，”unstructured“：”Wray，K.H.，Zilberstein，S.，Mouaddib，A.I.：具有条件词典奖励偏好的多目标MDP。In：AAAI（2015）“，”doi“：”10.1609\/AAAI.v29i1.9647“}：“10.1016\/j.jcss.2011.12.028”，“卷：“78”，“作者”：“Y Yue”，“年份”：“2012”，“非结构化”：“Yue，Y.，Broder，J.，Kleinberg，R.，Joachims，T.：k武装决斗强盗问题。J.计算。系统。科学。78（5），1538\u20131556（2012）“，“期刊标题”：《计算杂志》。系统。科学。“}]，”container-title“：[”计算机科学讲义“，”人工智能多学科趋势“]，”original-title”：[]，”language“：”en“，”link“：[{”URL“：”https:\/\/link.springer.com/content\/pdf\/10.1007\/978-3-319-49397-8_20“，”content-type“：”unspecified“，”content-version“：”vor“，”intended-application“：”similarity-checking“}]“存放“：{“date-parts”：[[2024,3,13]]，“date-time”：“2024-03-13T15:49:59Z”，“timestamp”：1710344999000}，“score”：1，“resource”：{”primary“：{“URL”：“https:\/\/link.springer.com\/10.1007\/978-3-319-49397-8_20”}，”subtitle“：[]，”shorttitle“：[]，”issued“{”date-part“：[2016]]}，319493961“，”9783319493978“]，”references-count“：35，”URL“：”http:\/\/dx.doi.org/10.1007\/978-3-319-49397-8_20“，“关系”：｛｝，“ISSN”：[“0302-9743”，“1611-3349”]，“ISSN类型”：[｛“类型”：“打印”，“值”：“0302-9743”｝，｛“类型”：“电子”，“值”：“1611-3349”｝]，“主题”：[]，“已发布”：｛“日期部分”：[[2016]]｝，“断言”：[｛“值”：“2016年11月10日”，“order“：1，”name“：”first_online“，”label“：”first online“，”group“：｛”name“：”ChapterHistory“，”label“：”Chapter History”}}，{“value”：“MIWAI”，“order”：1，“name”：“conference_acrombit”，“label”：“conference缩写”，“group”：{“name”:“ConferenceInfo”，“标签”：“会议信息”}}}会议名称”，“组”：｛“名称”：“ConferenceInfo”，“标签”：“会议信息”｝｝，｛“值”：“清迈”，“顺序”：3，“名称”：“会议城市”，“标签”：“会议城市”，“组”：｛“名称”：“ConferenceInfo”，“标签”：“会议信息”｝，｛“值”：“泰国”，“顺序”：4，“名称”：“会议国家”，“标签”：“会议国家”，“组”：｛“名称”：“会议信息“，”标签“：”会议信息“}}，{“value”：“2016”，“order”：5，“name”：“Conference_year”，“label”：“会议年份”，“group”：{“name”:“ConferenceInfo”，“table”：“Conferency Information”}}、{“value”：“2016.12”，“订单”：7，“name“Conference_start_date”，”标签：“会议开始日期”，“group”：{“name”，“ConfernceInfo”会议信息“}}，{“value”：“2016年12月9日”，“order”：8，“name”：“Conference_end_date”，“label”：“会议结束日期”，“group”：miwai2016“，”order“：10，”name“：”conference_id“，”label“：”conference id“，”group“：{”name“:”ConferenceInfo“，”标签“：”会议信息“}}]}}