{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,9,8]],“日期-时间”:“2024-09-08T20:43:58Z”,“时间戳”:1725828238552},“出版商位置”:“查姆”,“引用-计数”:20,“出版者”:“斯普林格国际出版”,“isbn-type”:[{“类型”:”打印“,“值”:“9783319231136”},{“类型”:“电子”,“value”:“9783319231143”}],“license”:[{“start”:{“date-parts”:[[2015,1,1]],“date-time”:“2015-01-01T00:00:00Z”,“timestamp”:1420070400000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“http://www.springer.com\/tdm”},{“start”:{“date-ports”:[2015,1,1]],T00:00:00Z“,”时间戳“:1420070400000},”内容版本“:”tdm“,“delay-in-days”:0,“URL”:“http://www.springer.com\/tdm”},{“start”:{“date-parts”:[[2015,1,1]],“date-time”:“2015-01-01T00:00:00Z”,“timestamp”:1420070400000},“content-version”:“vor”,“delay-in-days“:0,”URL:“http://www.springer.com/tdm”}],“content-domain”:er.com“],“crossmark-restriction”:false},“short-container-title”:[],“已出版的印刷品”:{“日期部分”:[[2015]]},“DOI”:“10.1007\/978-3-319-23114-3_9”,“类型”:“书籍章节”,“已创建”:{“日期部分”:[[2015,8,27],“日期时间”:“2015-08-27T09:01:33Z”,“时间戳”:1440666093000},“页面”:“139-152”,“更新策略”:“http:\/\/dx.DOI.org/10.1007\/springer_crosmark_policy”,“源”:“Crossref”,由引用count“:3,”标题“:[“减少交互式值迭代中的查询数”],“前缀”:“10.1007”,“作者”:[{“给定”:“雨果”,“家族”:“吉尔伯特”,“序列”:“第一”,“从属关系”:[]},{“给出”:“奥利维尔”,“家庭”:“斯潘加德”,“顺序”:“附加”,“隶属关系”:[]}:“保罗”,“family”:“Weng”,“sequence”:“additional”,“affiliation”:[]}],“member”:“297”,“published-on-line”:{“date-parts”:[[2015,8,28]]},“reference”:[{“key”:“9_CR1”,“doi-asserted-by”:”crossref“,”unstructured“:“Abbeel,P.,Ng,A.:通过反向强化学习进行学徒制学习。摘自:第二十届第一届机器学习国际会议论文集,ICML 2004。ACM,New York(2004)“,“DOI”:“10.1145\/1015330.1015430”},{“key”:“9_CR2”,“unstructured”:“Bagnell,J.,Ng,A.,Schneider,J.:解决不确定马尔可夫决策过程。技术报告,CMU(2001)”}、{“密钥”:“9-CR3”,“DOI-asserted-by”:“publisher”,“首页”:“323”,”DOI“10.1109\/TITB.2006.864480”,《卷》:“10”,“作者”:“J Boger”,“年份”:“2006年”,“非结构化”:“Boger,J.、Hoey,J.,Poupart,P.、Boutiler,C.、Fernie,G.、Mihailidis,A.:基于马尔可夫决策过程的规划系统,用于指导痴呆患者的日常生活活动。IEEE传输。技术信息。生物识别。10,323\u2013333(2006)“,“期刊标题”:“IEEE Trans。技术信息。生物识别。“},{”key“:”9_CR4“,”unstructured“:”Boutiler,C.,Das,R.,Kephart,J.O.,Tesauro,G.,Walsh,W.E.:使用增量效用启发在自主系统中进行合作协商。摘自:《第十九届人工智能不确定性会议论文集》,第89\u201397(2003)页“}”,{“key”:“9_CR5”,“doi-asserted-by”:“crossref”,“”首页”:“167”,“DOI”:“10.1080\/00031305.1992.10457878”,“卷”:“46”,“作者”:“G Casella”,“年份”:“1992”,“非结构化”:“Casella,G.,George,E.I.:解释吉布斯采样器。Am.Stat.46,167\u2013174(1992)“,”journal-title“:”Am.Stat“},{”key“:”9_CR6“,”doi-asserted-by“:”crossref“,”unstructured“:”Delage,E.,Mannor,S.:“不确定马尔可夫决策过程中的百分比优化及其在有效勘探中的应用。摘自:ICML,pp.225\u2013232(2007)“,“doi”:“10.1145\/1273496.1273525”},}“issue”:“1\u20132”,“key”:“”9_CR7“,”doi-asserted-by“:”publisher“,”first-page“:”71“,”doi“:”10.1016\/S0004-3702(00)00047-3“,”volume“:”122“,”author“:”R Givan“,“year”:“2000”,”unstructured“:”Givan,R.,Leach,S.,Dean,T.:有界参数Markov决策过程。Artif公司。智力。122(1\u20132),71\u2013109(2000)“,“新闻标题”:“文章。智力。“},{”key“:”9_CR8“,”unstructured“:”Piot,B.,Geist,M.,Pietquin,O.:学徒制学习的强化和奖励规则分类。In:自主代理和多代理系统国际会议,AAMAS 2014,法国巴黎,2014年5月5日,第1249\u20131256页(2014)“}”,{“key”:“9_CR9”,“doi-asserted-by”:“publisher”,“doi”:“10.1002\/9780470316887“,“volume-title”:“马尔可夫决策过程:离散随机动态规划”,“author”:“M Puterman”,“year”:“1994”,“unstructured”:“Puterman,M.:Markov决策过程:分立随机动态规划,第1版。Wiley,New York(1994),“版本”:“1”},{“key”:“9_CR10”,“unstructured”:“Regan,K.,Boutiler,C.:马尔可夫决策过程的基于后悔的奖励启发。摘自:第二十五届人工智能不确定性会议论文集,UAI 2009,pp.444\u2013451。AUAI Press,Arlington(2009)“},{“key”:“9_CR11”,“doi-asserted-by”:“crossref”,“unstructured”:“Regan,K.,Boutiler,C.:使用非支配策略的回报保证MDPS中的稳健策略计算。in:Fox,M.,Poole,D.(eds.)AAAI.AAAI Pres(2010)”,“doi”:“10.1609\/aaaai.v24i1.7740”},“key“:”9_CR12”,“非结构化”:“Regan,K.,Boutiler,C.:为马尔可夫决策过程推导加性奖励函数。参见:《第二十二届国际人工智能联合会议记录》,2011年国际人工智能学会,第3卷,第2159\u20132164页。AAAI出版社(2011年)“},{“key”:“9_CR13”,“unstructured”:“Regan,K.,Boutiler,C.:对有报酬的MDP进行稳健的在线优化。摘自:《第二十届国际人工智能联合会议论文集》,IJCAI 2011,第3卷,pp.2165\u20132171。AAAI Press(2011)“},{“key”:“9_CR14”,“doi-asserted-by”:“crossref”,“unstructured”:“Rosenthal,S.,Veloso,M.M.:学习加性奖励函数的蒙特卡罗偏好启发。摘自:RO-MAN,第886\u2013891页。IEEE(2012)“,“DOI”:“10.1109\/ROMAN.2012.6343863”},{“key”:“9_CR15”,“unstructured”:“Thomaz,A.,Hoffman,G.,Breazeal,C.:机器人实时交互强化学习。摘自:AAAI Workshop Human Compensible Machine learning,pp.9\u201313(2005)”}、{“key”:翁,P.:具有序数奖励的马尔可夫决策过程:基于参考点的偏好。摘自:《第21届国际自动规划与调度会议论文集》,ICAPS 2011,德国弗莱堡,2011年6月11日(2011),“DOI”:“10.1609\/ICAPS.v21i1.13448”},{“key”:“9_CR17”,“unstructured”:“翁,P.:马尔可夫决策过程的顺序决策模型。摘自:ECAI 2012\u201320欧洲人工智能会议。包括著名的人工智能应用(PAIS 2012)系统演示跟踪,pp.828\u2013833,法国蒙彼利埃,27\u201331 August 2012(2012)“},{“key”:“9_CR18”,“nonstructured”:“Weng,P.,Zanuttini,B.:具有未知回报的马尔可夫决策过程的交互式价值迭代。In:Rossi,F.(ed.)IJCAI公司。IJCAI\/AAAI(2013)“},{”issue“:”2“,”key“:”9_CR19“,”doi-asserted-by“:”publisher“,”first page“:“639”,”doi“:”10.1016\/0022-247X(82)90122-6“,”volume“:647(1982)“,“新闻标题”:”数学杂志。分析。申请。},{“key”:“9_CR20”,“doi-asserted-by”:“crossref”,“unstructured”:“Xu,H.,Mannor,S.:不确定Markov决策过程中的参数后悔。摘自:CDC,pp.3606\u20133613。IEEE(2009)“,”DOI“:”10.1109\/CD.2009.5400796“}],”container-title“:[”计算机科学课堂讲稿“,”算法决策理论“],”原文标题“:[],”language“:”en“,”link“:[{”URL“:”http://link.springer.com/content\/pdf\/10007\/978-3-19319-23114-3_9“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”相似性检查“}”,“存放”:{“日期部分”:[[2024,6,10]],“日期时间”:“2024-06-10T19:29:39Z”,“时间戳”:1718047779000},“分数”:1,“资源”:{“主要”:{:“URL”:“http://\/link.springer.com\/10.1007\/978-3-319-23114-3_9”},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[2015]]},“ISBN”:[“9783319231136”,“97833231143”],“references-count“:20,”URL“:”http://\/dx.doi.org\/10.1007\/978-3-319-23114-3_9“,”关系“:{},”ISSN“:[”0302-9743“,”1611-3349“],”ISSN-type“:[{”type“:”print“,”value“:”0302-7743“},{”类型“:”electronic“,”value“:“1611-3399”}],”subject“:【】,”published“:{”date-parts“:【2015】】},“断言”:[{“value”:“2015年8月28日”,“order”:1,“name”:“first_online”,“label”:“第一联机“,”组“:{“name”:“ChapterHistory”,“label”:“章节历史”}}]}}