{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期-部件”：[[2024,3,19]]，“日期-时间”：“2024-03-19T15:45:44Z”，“时间戳”：1710863144269}，“参考-计数”：33，“出版商”：“Springer Science and Business Media LLC”，“问题”：“3”，“许可证”：[{“开始”：{-“日期-零件”：[2017,9,8]]，”日期-时间我”：“2017-09-08T00:00:00Z”，“timestamp”：1504828800000}，“content-version”：“unspecified”，“delay-in-days”：0，“URL”：“http://\/creativecommons.org\/licenses\/by\/4.0”}]，“funder”：[{“DOI”：“10.13039\/501100003051”，“name”：“新能源和工业技术发展组织（NEDO）”，“DOI-asserted-by”：“crossref”}]、“content-domain”：{“domain”:[“link.springer.com”]，“交叉标记限制”：false｝，“短容器标题”：[“神经过程快报”]，“已发表的印刷品”：｛“日期部分”：[[2018,6]]｝，“DOI”：“10.1007\/s1063-017-9702-7”，“类型”：“期刊文章”，“已创建”：｛“日期部分”：[[2017,9,11]，“日期时间”：“2017-09-11T16:50:42Z”，“时间戳”：1505148642000｝，“页面”：“891-905”，“更新策略”：“http://\/dx.doi.org\/10.1007\/springer_crossmark_policy”，“source”：“Crossref”、“is-referenced-by-count”：28，“title”：[“Model-Free Deep Inverse Reinforcement Learning by Logistic Regression”]，“prefix”：“10.1007”，”volume“：“47”，“author”：[{“ORCID”：”http://\/ORCID.org\/00000-0001-7908-0258“，”authenticated-ORCID“：false，”given“：”Eiji“，”family“Uchibe”“”，“sequence”：“first”，“affiliation”：[]}]，“member”：“297”，“published-on-line”：{“date-parts”：[[2017,9,8]}，“reference”：[{“key”：“9702_CR1”，“unstructured”：“Baram N，Anschel O，Caspi I，Mannor S（2017）端到端可微对抗性模仿学习。In:第34届国际机器学习会议论文集，pp 390\u2013399”}，{“key”：“9702_CR2”，“doi-asserted-by”：“crossref”，“first page”：“253”，“doi”：“10.1613\/jair.3912”，“volume”：”47“，“author”：“MG Bellemare”，“year”：“2013”，“unstructured”：“Bellemare-MG，Naddaf Y，Veness J，Bowling M（2013）街机学习环境：通用代理评估平台。J Artif Intell Res 47:253\u2013279”，“journal-title”：“J Artif Intell Res”}，{“key”：“9702_CR3”，“首页”：“2137”，“卷”：“10”，“作者”：“S Bickel”，“年份”：“2009年”，“非结构化”：“Bickel S，Br\u00fcckner M，Scheffer T（2009）协变量移位下的判别学习。J Mach Learn Res 10:2137\u20132155”，“日志标题”：“J Mach Learn Res”{“密钥”：“9902_CR4”，“unstructured”：“Boularias A，Kober J，Peters J（2011）相对熵逆强化学习。摘自：第14届人工智能与统计国际会议论文集”}，{“key”：“9702_CR5”，“unstructured”：“Finn C，Levine S，Abbeel P（2016）引导成本学习：通过策略优化实现深度逆最优控制。在：《第33届机器学习国际会议论文集》，第49\u201358页，｛“key”：“9702_CR6”，“first page”：“2672”，“volume”：“27”，“author”：“I Goodfellow”，“year”：“2014”，“nonstructured”：“Goodfellow I，Pouget Abadie J，Mirza M，Xu B，Warde Farley D，Ozair S，Courville A，Bengio Y（2014）生成性对抗网络。Adv Neural Inf Process Syst 27:2672\u20132680“，“journal-title”：“Adv Neral Inf Process-Syst”}，{“key”：“9702_CR7”，“unstructured”：“Guo X，Singh S，Lewis RL，Lee H（2016）奖励设计的深度学习，以改进ATARI游戏中的Monte Carlo树搜索。in:第25届国际人工智能联合会议论文集”}、{“key”：”9702_CR8“，“首页”：“4565”，“卷”：“29”，“作者”：“J Ho”，“年份”：“2016”，“非结构化”：“Ho J，Ermon S（2016）生成性对抗性模仿学习。Adv Neural Inf Process Syst 29:4565\u20134573“，“journal-title”：“Adv Neral Inf Process-Syst”}，{“key”：“9702_CR9”，“doi-asserted-by”：“crossref”，“unstructured”：“Kalakrishnan M，Pastor P，Righetti L，Schaal S（2013）学习操纵的目标函数。摘自：IEEE机器人与自动化国际会议论文集，第1331\u20131336页，“DOI”：“10.1109\/ICRA.2013.6630743”}，{“key”：“9702_CR10”，“DOI-asserted-by”：“crossref”，“unstructured”：“Kuderer M，Gulati S，Burgard W（2015）通过演示学习自动驾驶汽车的驾驶风格。摘自：IEEE机器人与自动化国际会议论文集，第2641\u20132646页“，”DOI“：”10.1109\/ICRA.2015.7139555“}，{”key“：”9702_CR11“，”DOI-asserted-by“：”crossref“，”unstructured“：”Lucas S，Runarsson T（2006）获取奥赛罗位置评估的时间差异学习与协同进化。摘自：IEEE计算智能与游戏研讨会论文集，第52\u201359页“，”DOI“：”10.1109\/CIG.2006.311681“}，”key“：”9702_CR12“，”DOI-asserted-by“：”crossref“，”first page“：“177”，”DOI:“10.1007\/BF02471202”，“volume”：“7”，”author“：”K Miyazaki“，”year“：”2004“，”unstructured“：”Miyazaki-K，Kobayashi S（2004）开发强化学习系统来扮演奥赛罗。Artif Life Robot 7:177\u2013181“，“journal-title”：“Artif Life Robot”}，{“issue”：“7540”，“key”：“9702_CR13”，“doi-asserted-by”：“crossref”，“first-page”：“529”，“doi”：“10.1038\/nature14236”，“volume”：”518“author”：“V Mnih”，“year”：“2015”，“unstructured”：“Mnih V、Kavukcuoglu K、Silver D、Rusu AA、Veness J、Bellemare MG、Graves A、Riedmiller M、Fidjeland AK、Ostrovski G、Petersen S、Beattie C、Sadik A、Antonoglou I、King H、Kumaran D、Wierstra D、Legg S、Hassabis D（2015）通过深度强化学习实现人性化控制。《自然》518（7540）:529\u2013533“，”期刊标题“：”《自然》}，｛”期刊“：”5“，”密钥“：”9702_CR14“，”doi断言“：”交叉引用“，”第一页“：”603“，”doi“：”10.1007\/s0422-014-0599-1“，”卷“：”108“，”作者“：”K Muelling“，”年份“：”2014“，”非结构化“：”Muelling K，Boularias A，Mohler B，Sch\u00f6lkopf B，Peters J（2014）乒乓球学习策略的反向强化学习。Biol Cybern 108（5）：603\u2013619“，“journal-title”：“Biol Cypern”}，{“key”：“9702_CR15”，“unstructured”：“Ng AY，Russell S（2000）逆向强化学习算法。In:第17届国际机器学习会议论文集，pp 663\u2013 670”}、{“key”：”9702_CR16“，“unsructured“：”Schulman J、Levine S、Abbeel P、Jordan M、Moritz P（2015）《信托区域政策优化》。摘自：第32届机器学习国际会议论文集，pp 1889\u20131897“}，{“key”：“9702_CR17”，“doi-asserted-by”：“crossref”，“unstructured”：“Shimosaka M，Nishi K，Sato J，Kataoka H（2015）使用具有多个奖励函数的反向强化学习预测环境多样性的驾驶行为。摘自：IEEE智能车辆研讨会论文集，第567\u2013572页，“DOI”：“10.1109\/IVS.2015.7225745”}，{“问题”：“7587”，“关键”：“9702_CR18”，“DOI-asserted-by”：“crossref”，“首页”：“484”，“DOI:“10.1038\/nature16961”，“卷”：“529”，“作者”：“D Silver”，“年份”：“2016”，“非结构化”：“Silver D、Huang A、Maddison CJ、Guez A、Sifre L、van den Driessche G、Schrittwieser J、Antonoglou I、Panneershelvam V、Lanctot M、Dieleman S、Grewe D、Nham J、Kalchbrenner N、Sutskever I、Lillicrap T、Leach M、Kavukcuoglu K、Graepel T、Hassabis D（2016）通过深度神经网络和树搜索掌握围棋游戏。Nature 529（7587）：484\u2013489“，”journal-title“：”Nature“}，{“key”：“9702_CR19”，“doi-asserted-by”：“crossref”，“doi”：“10.1017\/CBO9781139035613”，“volume-title”：“机器学习中的密度比估计”，“author”：“M Sugiyama”，“year”：“2012”，“unstructured”：“Sugiyama-M，Suzuki T，Kanamori T（2012）机器学习中的密度比估计。剑桥大学出版社，剑桥“}，{“issue”：“3”，“key”：“9702_CR20”，“doi-asserted-by”：“crossref”，“first-page”：“214”，“doi”：“10.1109\/TCIAIG.2013.2258919”，“volume”:“5”，“author”：“M Szubert”，“year”：“2013”，“unstructured”：“Szuber M，Ja\u015bkowski W，Krawiec K（2013）关于共同进化学习的可扩展性、泛化和混合：奥赛罗的案例研究。IEEE Trans-Comput Intell AI Games 5（3）：214\u2013226“，”journal-title“：”IEEE Trans-Comput智能AI Games“}，{“issue”：“28”，“key”：“9702_CR21”，“doi-asserted-by”：“crossref”，“first page”：”11478“，“doi”：“10.1073\/pnas.0710743106”，“volume”：《106》，“author”：“E Todorov”，“year”：“2009”，“unstructured”：“Todorove E（2009）有效计算最优行动。PNAS 106（28）：11478\u201311483“，”journal-title“：”PNAS“}，{“key”：“9702_CR22”，“doi-asserted-by”：“crossref”，“unstructured”：“Uchibe E（2016）Deep inverse reinforcement learning by logistic regression。In:Proceedings of the 233 international conference on neural information processing”，“doi”：“10.1007\/978-3319-46687-3_3”}，”{“key”：”9702_CR2“，”doi-asserted-by“：”crossref“，”unstructured“：”Uchibe E，Doya K（2014）使用动态策略编程的反向强化学习。摘自：第四届发展与学习及表观遗传机器人国际会议论文集，第222\u2013228页，“DOI”：“10.1109\/DEVLRN.2014.6982985”}，{“问题”：“11”，“关键”：“9702_CR24”，“DOI-asserted-by”：“crossref”，“第一页”：“1701”，“DOI:”10.1109\/TNNLS.2012.2210559“，“卷”：“23”，“作者”：“S Dries van den”非结构化”：“van den Dries S，Wiering MA（2012）神经拟合TD叶学习，用于用结构化神经网络玩奥赛罗。IEEE Trans Neural Netw Learn Syst 23（11）：1701\u20131713“，“journal-title”：“IEEE Trans-Neural Netw学习系统”}，{“key”：“9702_CR25”，“doi-asserted-by”：“crossref”，“unstructured”：“van der Ree M，Wiering M（2013）奥赛罗游戏中的强化学习：针对固定对手学习，从自我游戏中学习。摘自：IEEE自适应动态规划和强化学习研讨会论文集，第108\u2013115页，“DOI”：“10.1109\/ADPRL.2013.6614996”}，{“key”：“9702_CR26”，“DOI-asserted-by”：“crossref”，“unstructured”：“van Hasselt H，Guez A，Silver D（2016）双Q学习的深度强化学习。摘自：《第30届AAAI人工智能会议论文集》，“DOI”：“10.1609\/AAAI.v30i1.10295”}，{“key”：“9702_CR27”，“unstructured”：“Wang Z，Schaul T，Hessel M，van Hasselt H，Lanctot M，de \u00a0Freitas N（2016）深入强化学习的决斗网络架构。在：《第33届机器学习国际会议论文集》中，｛“key”：“9702_CR28”，“doi asserted by”：“crossref”，“first page”：“205”，“doi”：“10.1613\/jair.1190”，“volume”：“19”，“author”：“E Wiewiora”，“year”：“2003”，“nonstructured”：“Wiewiora E（2003）基于电位的整形和Q值初始化是等效的。J Artif Intell Res 19:205\u2013208“，“journal-title”：“J Artif Intel-Res”}，{“key”：“9702_CR29”，“unstructured”：“Wulfmeier M，Ondr\u00fa\u0161ka P，Posner I（2015）最大熵深度反向强化学习。In:NIPS deep reinforcement learning Workshop”}、{“key”：《9702_CR10》，“unsructured（非结构化）：“Wurfmeier-M，Rao D，Posner 1（2016a）将人类领域知识纳入大规模成本函数学习。在：NIPS深度强化学习研讨会“}，{“key”：“9702_CR31”，“doi-asserted-by”：“crossref”，“unstructured”：“Wulfmeier M，Wang DZ，Posner I（2016b）观看：城市环境中路径规划的可扩展成本函数学习。在：IEEE \/RSJ智能机器人和系统国际会议论文集”，“doi”：“10.1109\/IROS.2016.7759328“}，{“key”：“9702_CR32”，“unstructured”：“Yoshioka T，Ishii S，Ito M（1999）基于强化学习的游戏《奥赛罗》的策略获取。IEICE Trans-Inf Syst E82-D（12）：1618\u20131626”}，}，“key“：”9702_CR.33“，”非结构化“：”Ziebart BD，Maas A，Bagnell JA，Dey AK（2008）最大熵反向强化学习。In:第23届AAAI人工智能会议论文集“}”，“container-title”：[“Neural Processing Letters”]，“original-title“：[]，“language”：“en”，“link”：[{“URL”：“http://\/link.springer.com\/article\/10.1007\/s11063-017-9702-7\/fulltext.html”，“content-type”：“text\/html”，“content-version”：“vor”，“intended-application”：“text-mining”}，{URL“：”http://\/link.springer.com/content\/pdf\/10.1007\/s11063-017-9702-7.pdf“，”content-type“：”application\/pdf“、”content-version“：”vor“、”intended-application“：”text-mining“}、{“URL”：”http://\\/link.stringer.com\/content\/pdf\/10.1007\/s110630-17-9702-6.pdf应用程序“：”相似性检查“}”，“存放”：{“日期-部分”：[[2022,8,2]]，“日期-时间”：“2022-08-02T17:16:37Z”，“时间戳”：1659460597000}，“分数”：1，“资源”：{-“主要”：{:“URL”：“http://\/link.springer.com\/10.1007\/s11063-017-9702-7”}，”副标题“：[]，”短标题“：[]，”发布“：{”日期-部分“：[2017,9,8]]}，“references-count”：33，“journal-issue”：{“issue”：“3”，“published-print“：{”date-parts“：[[2018,6]]}}，”alternative-id“：[”9702“]，”URL“：”http://\/dx.doi.org\/10.1007\/s11063-017-9702-7“，”relation“：{}，“ISSN”：[”1370-4621“，”1573-773X“]，“ISSN-type”：[{“value”：“1370-4621'，”type“：”print“}，{“value”：“1573-773G”，“type”：“电子”}]，“主题”：[]，“发布”：{“日期部分”：[[2017,9,8]]}}}