{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期-部件”：[[2024,9,8]]，“日期-时间”：“2024-09-08T20:43:58Z”，“时间戳”：1725828238552}，“出版商位置”：“查姆”，“引用-计数”：20，“出版者”：“斯普林格国际出版”，“isbn-type”：[{“类型”：”打印“，“值”：“9783319231136”}，{“类型”：“电子”，“value”：“9783319231143”}]，“license”：[{“start”：{“date-parts”：[[2015,1,1]]，“date-time”：“2015-01-01T00:00:00Z”，“timestamp”：1420070400000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“http://www.springer.com\/tdm”}，{“start”：{“date-ports”：[2015,1,1]]，T00:00:00Z“，”时间戳“：1420070400000}，”内容版本“：”tdm“，“delay-in-days”：0，“URL”：“http://www.springer.com\/tdm”}，{“start”：{“date-parts”：[[2015,1,1]]，“date-time”：“2015-01-01T00:00:00Z”，“timestamp”：1420070400000}，“content-version”：“vor”，“delay-in-days“：0，”URL：“http://www.springer.com/tdm”}]，“content-domain”：er.com“]，“crossmark-restriction”：false}，“short-container-title”：[]，“已出版的印刷品”：｛“日期部分”：[[2015]]｝，“DOI”：“10.1007\/978-3-319-23114-3_9”，“类型”：“书籍章节”，“已创建”：｛“日期部分”：[[2015,8,27]，“日期时间”：“2015-08-27T09:01:33Z”，“时间戳”：1440666093000｝，“页面”：“139-152”，“更新策略”：“http:\/\/dx.DOI.org/10.1007\/springer_crosmark_policy”，“源”：“Crossref”，由引用count“：3，”标题“：[“减少交互式值迭代中的查询数”]，“前缀”：“10.1007”，“作者”：[{“给定”：“雨果”，“家族”：“吉尔伯特”，“序列”：“第一”，“从属关系”：[]}，{“给出”：“奥利维尔”，“家庭”：“斯潘加德”，“顺序”：“附加”，“隶属关系”：[]}：“保罗”，“family”：“Weng”，“sequence”：“additional”，“affiliation”：[]}]，“member”：“297”，“published-on-line”：{“date-parts”：[[2015,8,28]]}，“reference”：[{“key”：“9_CR1”，“doi-asserted-by”：”crossref“，”unstructured“：“Abbeel，P.，Ng，A.：通过反向强化学习进行学徒制学习。摘自：第二十届第一届机器学习国际会议论文集，ICML 2004。ACM，New York（2004）“，“DOI”：“10.1145\/1015330.1015430”}，{“key”：“9_CR2”，“unstructured”：“Bagnell，J.，Ng，A.，Schneider，J.：解决不确定马尔可夫决策过程。技术报告，CMU（2001）”}、{“密钥”：“9-CR3”，“DOI-asserted-by”：“publisher”，“首页”：“323”，”DOI“10.1109\/TITB.2006.864480”，《卷》：“10”，“作者”：“J Boger”，“年份”：“2006年”，“非结构化”：“Boger，J.、Hoey，J.，Poupart，P.、Boutiler，C.、Fernie，G.、Mihailidis，A.：基于马尔可夫决策过程的规划系统，用于指导痴呆患者的日常生活活动。IEEE传输。技术信息。生物识别。10，323\u2013333（2006）“，“期刊标题”：“IEEE Trans。技术信息。生物识别。“}，{”key“：”9_CR4“，”unstructured“：”Boutiler，C.，Das，R.，Kephart，J.O.，Tesauro，G.，Walsh，W.E.：使用增量效用启发在自主系统中进行合作协商。摘自：《第十九届人工智能不确定性会议论文集》，第89\u201397（2003）页“}”，{“key”：“9_CR5”，“doi-asserted-by”：“crossref”，“”首页”：“167”，“DOI”：“10.1080\/00031305.1992.10457878”，“卷”：“46”，“作者”：“G Casella”，“年份”：“1992”，“非结构化”：“Casella，G.，George，E.I.：解释吉布斯采样器。Am.Stat.46，167\u2013174（1992）“，”journal-title“：”Am.Stat“}，{”key“：”9_CR6“，”doi-asserted-by“：”crossref“，”unstructured“：”Delage，E.，Mannor，S.：“不确定马尔可夫决策过程中的百分比优化及其在有效勘探中的应用。摘自：ICML，pp.225\u2013232（2007）“，“doi”：“10.1145\/1273496.1273525”}，}“issue”：“1\u20132”，“key”：“”9_CR7“，”doi-asserted-by“：”publisher“，”first-page“：”71“，”doi“：”10.1016\/S0004-3702（00）00047-3“，”volume“：”122“，”author“：”R Givan“，“year”：“2000”，”unstructured“：”Givan，R.，Leach，S.，Dean，T.：有界参数Markov决策过程。Artif公司。智力。122（1\u20132），71\u2013109（2000）“，“新闻标题”：“文章。智力。“}，{”key“：”9_CR8“，”unstructured“：”Piot，B.，Geist，M.，Pietquin，O.：学徒制学习的强化和奖励规则分类。In：自主代理和多代理系统国际会议，AAMAS 2014，法国巴黎，2014年5月5日，第1249\u20131256页（2014）“}”，{“key”：“9_CR9”，“doi-asserted-by”：“publisher”，“doi”：“10.1002\/9780470316887“，“volume-title”：“马尔可夫决策过程：离散随机动态规划”，“author”：“M Puterman”，“year”：“1994”，“unstructured”：“Puterman，M.：Markov决策过程：分立随机动态规划，第1版。Wiley，New York（1994），“版本”：“1”}，{“key”：“9_CR10”，“unstructured”：“Regan，K.，Boutiler，C.：马尔可夫决策过程的基于后悔的奖励启发。摘自：第二十五届人工智能不确定性会议论文集，UAI 2009，pp.444\u2013451。AUAI Press，Arlington（2009）“}，{“key”：“9_CR11”，“doi-asserted-by”：“crossref”，“unstructured”：“Regan，K.，Boutiler，C.：使用非支配策略的回报保证MDPS中的稳健策略计算。in：Fox，M.，Poole，D.（eds.）AAAI.AAAI Pres（2010）”，“doi”：“10.1609\/aaaai.v24i1.7740”}，“key“：”9_CR12”，“非结构化”：“Regan，K.，Boutiler，C.：为马尔可夫决策过程推导加性奖励函数。参见：《第二十二届国际人工智能联合会议记录》，2011年国际人工智能学会，第3卷，第2159\u20132164页。AAAI出版社（2011年）“}，{“key”：“9_CR13”，“unstructured”：“Regan，K.，Boutiler，C.：对有报酬的MDP进行稳健的在线优化。摘自：《第二十届国际人工智能联合会议论文集》，IJCAI 2011，第3卷，pp.2165\u20132171。AAAI Press（2011）“}，{“key”：“9_CR14”，“doi-asserted-by”：“crossref”，“unstructured”：“Rosenthal，S.，Veloso，M.M.：学习加性奖励函数的蒙特卡罗偏好启发。摘自：RO-MAN，第886\u2013891页。IEEE（2012）“，“DOI”：“10.1109\/ROMAN.2012.6343863”}，{“key”：“9_CR15”，“unstructured”：“Thomaz，A.，Hoffman，G.，Breazeal，C.：机器人实时交互强化学习。摘自：AAAI Workshop Human Compensible Machine learning，pp.9\u201313（2005）”}、{“key”：翁，P.：具有序数奖励的马尔可夫决策过程：基于参考点的偏好。摘自：《第21届国际自动规划与调度会议论文集》，ICAPS 2011，德国弗莱堡，2011年6月11日（2011），“DOI”：“10.1609\/ICAPS.v21i1.13448”}，{“key”：“9_CR17”，“unstructured”：“翁，P.：马尔可夫决策过程的顺序决策模型。摘自：ECAI 2012\u201320欧洲人工智能会议。包括著名的人工智能应用（PAIS 2012）系统演示跟踪，pp.828\u2013833，法国蒙彼利埃，27\u201331 August 2012（2012）“｝，｛“key”：“9_CR18”，“nonstructured”：“Weng，P.，Zanuttini，B.：具有未知回报的马尔可夫决策过程的交互式价值迭代。In：Rossi，F.（ed.）IJCAI公司。IJCAI\/AAAI（2013）“}，{”issue“：”2“，”key“：”9_CR19“，”doi-asserted-by“：”publisher“，”first page“：“639”，”doi“：”10.1016\/0022-247X（82）90122-6“，”volume“：647（1982）“，“新闻标题”：”数学杂志。分析。申请。}，{“key”：“9_CR20”，“doi-asserted-by”：“crossref”，“unstructured”：“Xu，H.，Mannor，S.：不确定Markov决策过程中的参数后悔。摘自：CDC，pp.3606\u20133613。IEEE（2009）“，”DOI“：”10.1109\/CD.2009.5400796“}]，”container-title“：[”计算机科学课堂讲稿“，”算法决策理论“]，”原文标题“：[]，”language“：”en“，”link“：[{”URL“：”http://link.springer.com/content\/pdf\/10007\/978-3-19319-23114-3_9“，”content-type“：”unspecified“，”content-version“：”vor“，”intended-application“：”相似性检查“}”，“存放”：{“日期部分”：[[2024,6,10]]，“日期时间”：“2024-06-10T19:29:39Z”，“时间戳”：1718047779000}，“分数”：1，“资源”：{“主要”：{:“URL”：“http://\/link.springer.com\/10.1007\/978-3-319-23114-3_9”}，”副标题“：[]，”短标题“：[]，”已发布“：{”日期部分“：[2015]]}，“ISBN”：[“9783319231136”，“97833231143”]，“references-count“：20，”URL“：”http://\/dx.doi.org\/10.1007\/978-3-319-23114-3_9“，”关系“：{}，”ISSN“：[”0302-9743“，”1611-3349“]，”ISSN-type“：[{”type“:”print“，”value“：”0302-7743“}，{”类型“：”electronic“，”value“：“1611-3399”}]，”subject“：【】，”published“：{”date-parts“：【2015】】}，“断言”：[{“value”：“2015年8月28日”，“order”：1，“name”：“first_online”，“label”：“第一联机“，”组“：{“name”：“ChapterHistory”，“label”：“章节历史”}}]}}