{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期部分”：[[2022,10,25]]，“日期时间”：“2022-10-25T00:30:44Z”，“时间戳”：1666657844207}，“出版商位置”：“查姆”，“参考计数”：16，“出版者”：“斯普林格国际出版”，“isbn-type”：[{“值”：“9783319466868666”，“类型”：”打印}，{“值”：“9783319466873”，“type”：“electronic”}]，“license”：[{“start”：{“date-parts”：[[2016,1,1]]，“date-time”：“2016-01-01T00:00:00Z”，“timestamp”：1451606400000}，“content-version”：“unspecified”，“delay-in-days”：0，“URL”：“http:\\/www.springer.com\/tdm”}，{“start”：{“date-ports”：[2016,1]]0Z”，“时间戳”：1451606400000}，“内容-版本”：“unspecified”，“delay-in-days”：0，“URL”：“http://www.springer.com\/tdm”}]，“content-domain”：{“domain”:[]，“crossmark-restriction”：false}，“short-container-title”：[]，”published-print“：{”date-parts“：[[2016]]}，”DOI“：”10.1007\/978-319-46687-3_3“，”type“：”book-chapter“，”created“：”{“date-part”：[2016,9],28]]，“日期时间”：“2016-09-28T13:13:24Z”，“时间戳”：1475068404000}，“page”：“23-31”，“source”：”Crossref“，”is-referenced-by-count“：2，”title“：[”Deep Inverse Reinforcement Learning by Logistic Regression“]，”prefix“：”10.1007“，“author”：[{”given“：“Eiji”，“family”：“Uchibe”，“sequence”：“first”，“affiliation”：[]}]，“member”：“297”，“published on line”：{“date-parts”：[[2016,9,29]]]}，”reference“：[{“键”：“3_CR1”，“首页”：“2137”，“卷”：“10”，“作者”：“S Bickel”，“年份”：“2009”，“非结构化”：“Bickel，S.，Br\u00fcckner，M.，Scheffer，T.：协变量移位下的歧视性学习。J.Mach.Learn.Res.10，2137\u20132155（2009）”，“期刊标题”：“J.Mach-Learn.Res.”}，{“关键”：“3_CR2”，“无结构化”：“Boularias，A.，Kober，J.，Peters，J.：相对熵逆强化学习。In：《第14届国际人工智能与统计会议论文集》，第15卷（2011）”}，{“key”：“3_CR3”，“nonstructured”：“Finn，C.，Levine，S.，Abbeel，P.：引导成本学习：通过策略优化实现深度逆最优控制。摘自：第33届机器学习国际会议论文集，第49\u201358页（2016）”}，{“key”：“3_CR4”，“doi-asserted-by”：“publisher”，“unstructured”：“Kuderer，M.，Gulati，S.，Burgard，W.：通过演示学习自动驾驶汽车的驾驶风格。摘自：IEEE机器人与自动化国际会议论文集，第2641\u20132646页（2015）”，“DOI”：“10.1109\/ICRA.2015.7139555”}，{“key”：“3_CR5”，“first page”：《19》，“volume”：第24页，“author”：“S Levine”，“year”：“2011”，“unstructured”：“Levine，S.，Popovi\u0107，Z.，Koltun，V.：高斯过程的非线性逆强化学习。高级神经信息处理。系统24，19\u201327（2011）”，“期刊标题”：“高级神经信息过程系统”}，{“问题”：“5”，“关键”：“3_CR6”，“doi-asserted-by”：“出版商”，“首页”：“603”，“doi”：“10.1007”，“00422-014-0599-1”，“卷”：“108”，“作者”：“K Muelling”，“年份”：“2014年”，“非结构化”：“Muelling，K.，Boularias，A.，Mohler，B.，Sch\u00f6lkopf，B.，Peters，J.：使用反向强化学习的乒乓球学习策略。Biol.Cybern.108（5），603\u2013619（2014）”，“新闻标题”：“Biol.Cebern.”}，{“key”：“3_CR7”，“unstructured”：“Ng，A.Y.，Harada，D.，Russel，S.：奖励转换下的政策不变性：奖励形成的理论和应用。摘自：第十六届机器学习国际会议论文集（1999）”}，{“key”：“3_CR8”，“unstructured”：“Ng，A.Y.，Russell，S.：反向强化学习算法。摘自：第17届国际机器学习会议论文集，第663\u2013670页（2000）”}，{“key”：“3_CR9”，“doi-asserted-by”：“publisher”，“unstructured”：“Shimosaka，M.，Nishi，K.，Sato，J.，Kataoka，H.：使用具有多种奖励函数的反向强化学习预测环境多样性的驾驶行为。摘自：IEEE智能车辆研讨会论文集，第567\u2013572页（2015）”，“DOI”：“10.1109\/IVS.2015.7225745”}，{“issue”：“7587”，“key”：“3_CR10”，“DOI-asserted-by”：“publisher”，“first-page”：“484”，“DOI”：“10.1038\/nature16961”，“volume”：“529”，“author”：“D Silver”，“year”：“2016”，“unstructured”：“Silver，D.，et al.：掌握深度神经网络和树搜索的围棋游戏。Nature 529（7587），484\u2013489（2016）”，“journal-title”：“Nature”}，{“key”：：“10.1017\/CBO9781139035613”，“卷标题”：“机器学习中的密度比估计”，“作者”：“M Sugiyama”，“年份”：“2012”，“非结构化”：“Sugiyama，M.，Suzuki，T.，Kanamori，T.：机器学习中的密度比估计。剑桥大学出版社，剑桥（2012）”}，｛“issue”：“3”，“key”：“3_CR12”，“doi asserted by”：“publisher”，“首页”：“214”，“DOI”：“10.1109\/TCIAIG.2013.2258919”，“volume”：“5”，“author”：“M Szubert”，“year”：“2013”，“unstructured”：“Szuber，M.，Ja\u015bkowski，W.，Krawiec，K.：关于协同进化学习的可扩展性、泛化和混合：Othello.IEEE Trans.Compute.Intell.AI Games 5（3），214\u2013226（2013）”，“journal-title”：“IEEE Trans.Comput.Intell.AI Games”}，{“issue”：“28”，“key”：“3_CR13”，“doi-asserted-by”：“publisher”，“first page”：《首页》：“11478”，“doi”：“10.1073\/pnas.0710743106”，“volume”：”106“，“author”：“E Todoroov”，“year”：“2009”，“unstructured”：“Todorov，E.：优化操作的高效计算。pnas 106（28），11478\u201311483（2009）”，“journal-title”：“pnas”}，{“密钥”：“3_CR14”，“doi-asserted-by”：“publisher”，“unstructured”：“Uchibe，E.，Doya，K.：使用动态策略编程的反向强化学习。摘自：第四届IEEE发展与学习及表观遗传机器人学国际会议论文集，第222\u2013228（2014）页”，“doi”：“10.1109”，DEVLRN.2014.6982985“}，{”key“：”3_CR15“unstrustured”：“Wulfmeier，M.，Ondr\u00fa\u0161ka，P.，Posner，I.：最大熵深度反向强化学习。In:NIPS深度强化学习研讨会（2015）”}，{“key”：“3_CR16”，“非结构化”：“Ziebart，B.D.，Maas，A.，Bagnell，J.A.，Dey，A.K.：最大熵逆强化学习。摘自：第23届AAAI人工智能会议论文集（2008）”}]，“容器-时间”：[“神经信息处理”，“计算机科学讲义”]，“原文标题”：[]，“链接”：[{“URL”：“http://\/link.springer.com/content\/pdf\/10.1007\/978-3-319-46687-3_3”，“内容类型”：“未指定”，“content-version”：“vor”，“intended-application”：“相似性检查”}]，“存放”：{“日期-部件”：[[2017,4,19]]，“日期-时间”：“2017-04-19T14:50:51Z”，“时间戳”：1492613451000}，“分数”：1，“资源”：{-“主要”：{“URL”：“http://\/link.springer.com/10.1007\/978-3-319-46687-3_3”}}，“副标题”：[]，“短标题”：[]，“发布”：{“日期-部件”：[[2016]]}N“：[”0302-9743“，”1611-3349“]，”ISSN-type“：[{“value”：“0302-974”，“type”：”print“}，{“值”：“1611-3349”，“类型”：“电子”}]，“主题”：[]，“发布”：{“日期部分”：[[2016]]}}