{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,3,19]],“日期-时间”:“2024-03-19T15:45:44Z”,“时间戳”:1710863144269},“参考-计数”:33,“出版商”:“Springer Science and Business Media LLC”,“问题”:“3”,“许可证”:[{“开始”:{-“日期-零件”:[2017,9,8]],”日期-时间我”:“2017-09-08T00:00:00Z”,“timestamp”:1504828800000},“content-version”:“unspecified”,“delay-in-days”:0,“URL”:“http://\/creativecommons.org\/licenses\/by\/4.0”}],“funder”:[{“DOI”:“10.13039\/501100003051”,“name”:“新能源和工业技术发展组织(NEDO)”,“DOI-asserted-by”:“crossref”}]、“content-domain”:{“domain”:[“link.springer.com”],“交叉标记限制”:false},“短容器标题”:[“神经过程快报”],“已发表的印刷品”:{“日期部分”:[[2018,6]]},“DOI”:“10.1007\/s1063-017-9702-7”,“类型”:“期刊文章”,“已创建”:{“日期部分”:[[2017,9,11],“日期时间”:“2017-09-11T16:50:42Z”,“时间戳”:1505148642000},“页面”:“891-905”,“更新策略”:“http://\/dx.doi.org\/10.1007\/springer_crossmark_policy”,“source”:“Crossref”、“is-referenced-by-count”:28,“title”:[“Model-Free Deep Inverse Reinforcement Learning by Logistic Regression”],“prefix”:“10.1007”,”volume“:“47”,“author”:[{“ORCID”:”http://\/ORCID.org\/00000-0001-7908-0258“,”authenticated-ORCID“:false,”given“:”Eiji“,”family“Uchibe”“”,“sequence”:“first”,“affiliation”:[]}],“member”:“297”,“published-on-line”:{“date-parts”:[[2017,9,8]},“reference”:[{“key”:“9702_CR1”,“unstructured”:“Baram N,Anschel O,Caspi I,Mannor S(2017)端到端可微对抗性模仿学习。In:第34届国际机器学习会议论文集,pp 390\u2013399”},{“key”:“9702_CR2”,“doi-asserted-by”:“crossref”,“first page”:“253”,“doi”:“10.1613\/jair.3912”,“volume”:”47“,“author”:“MG Bellemare”,“year”:“2013”,“unstructured”:“Bellemare-MG,Naddaf Y,Veness J,Bowling M(2013)街机学习环境:通用代理评估平台。J Artif Intell Res 47:253\u2013279”,“journal-title”:“J Artif Intell Res”},{“key”:“9702_CR3”,“首页”:“2137”,“卷”:“10”,“作者”:“S Bickel”,“年份”:“2009年”,“非结构化”:“Bickel S,Br\u00fcckner M,Scheffer T(2009)协变量移位下的判别学习。J Mach Learn Res 10:2137\u20132155”,“日志标题”:“J Mach Learn Res”{“密钥”:“9902_CR4”,“unstructured”:“Boularias A,Kober J,Peters J(2011)相对熵逆强化学习。摘自:第14届人工智能与统计国际会议论文集”},{“key”:“9702_CR5”,“unstructured”:“Finn C,Levine S,Abbeel P(2016)引导成本学习:通过策略优化实现深度逆最优控制。在:《第33届机器学习国际会议论文集》,第49\u201358页,{“key”:“9702_CR6”,“first page”:“2672”,“volume”:“27”,“author”:“I Goodfellow”,“year”:“2014”,“nonstructured”:“Goodfellow I,Pouget Abadie J,Mirza M,Xu B,Warde Farley D,Ozair S,Courville A,Bengio Y(2014)生成性对抗网络。Adv Neural Inf Process Syst 27:2672\u20132680“,“journal-title”:“Adv Neral Inf Process-Syst”},{“key”:“9702_CR7”,“unstructured”:“Guo X,Singh S,Lewis RL,Lee H(2016)奖励设计的深度学习,以改进ATARI游戏中的Monte Carlo树搜索。in:第25届国际人工智能联合会议论文集”}、{“key”:”9702_CR8“,“首页”:“4565”,“卷”:“29”,“作者”:“J Ho”,“年份”:“2016”,“非结构化”:“Ho J,Ermon S(2016)生成性对抗性模仿学习。Adv Neural Inf Process Syst 29:4565\u20134573“,“journal-title”:“Adv Neral Inf Process-Syst”},{“key”:“9702_CR9”,“doi-asserted-by”:“crossref”,“unstructured”:“Kalakrishnan M,Pastor P,Righetti L,Schaal S(2013)学习操纵的目标函数。摘自:IEEE机器人与自动化国际会议论文集,第1331\u20131336页,“DOI”:“10.1109\/ICRA.2013.6630743”},{“key”:“9702_CR10”,“DOI-asserted-by”:“crossref”,“unstructured”:“Kuderer M,Gulati S,Burgard W(2015)通过演示学习自动驾驶汽车的驾驶风格。摘自:IEEE机器人与自动化国际会议论文集,第2641\u20132646页“,”DOI“:”10.1109\/ICRA.2015.7139555“},{”key“:”9702_CR11“,”DOI-asserted-by“:”crossref“,”unstructured“:”Lucas S,Runarsson T(2006)获取奥赛罗位置评估的时间差异学习与协同进化。摘自:IEEE计算智能与游戏研讨会论文集,第52\u201359页“,”DOI“:”10.1109\/CIG.2006.311681“},”key“:”9702_CR12“,”DOI-asserted-by“:”crossref“,”first page“:“177”,”DOI:“10.1007\/BF02471202”,“volume”:“7”,”author“:”K Miyazaki“,”year“:”2004“,”unstructured“:”Miyazaki-K,Kobayashi S(2004)开发强化学习系统来扮演奥赛罗。Artif Life Robot 7:177\u2013181“,“journal-title”:“Artif Life Robot”},{“issue”:“7540”,“key”:“9702_CR13”,“doi-asserted-by”:“crossref”,“first-page”:“529”,“doi”:“10.1038\/nature14236”,“volume”:”518“author”:“V Mnih”,“year”:“2015”,“unstructured”:“Mnih V、Kavukcuoglu K、Silver D、Rusu AA、Veness J、Bellemare MG、Graves A、Riedmiller M、Fidjeland AK、Ostrovski G、Petersen S、Beattie C、Sadik A、Antonoglou I、King H、Kumaran D、Wierstra D、Legg S、Hassabis D(2015)通过深度强化学习实现人性化控制。《自然》518(7540):529\u2013533“,”期刊标题“:”《自然》},{”期刊“:”5“,”密钥“:”9702_CR14“,”doi断言“:”交叉引用“,”第一页“:”603“,”doi“:”10.1007\/s0422-014-0599-1“,”卷“:”108“,”作者“:”K Muelling“,”年份“:”2014“,”非结构化“:”Muelling K,Boularias A,Mohler B,Sch\u00f6lkopf B,Peters J(2014)乒乓球学习策略的反向强化学习。Biol Cybern 108(5):603\u2013619“,“journal-title”:“Biol Cypern”},{“key”:“9702_CR15”,“unstructured”:“Ng AY,Russell S(2000)逆向强化学习算法。In:第17届国际机器学习会议论文集,pp 663\u2013 670”}、{“key”:”9702_CR16“,“unsructured“:”Schulman J、Levine S、Abbeel P、Jordan M、Moritz P(2015)《信托区域政策优化》。摘自:第32届机器学习国际会议论文集,pp 1889\u20131897“},{“key”:“9702_CR17”,“doi-asserted-by”:“crossref”,“unstructured”:“Shimosaka M,Nishi K,Sato J,Kataoka H(2015)使用具有多个奖励函数的反向强化学习预测环境多样性的驾驶行为。摘自:IEEE智能车辆研讨会论文集,第567\u2013572页,“DOI”:“10.1109\/IVS.2015.7225745”},{“问题”:“7587”,“关键”:“9702_CR18”,“DOI-asserted-by”:“crossref”,“首页”:“484”,“DOI:“10.1038\/nature16961”,“卷”:“529”,“作者”:“D Silver”,“年份”:“2016”,“非结构化”:“Silver D、Huang A、Maddison CJ、Guez A、Sifre L、van den Driessche G、Schrittwieser J、Antonoglou I、Panneershelvam V、Lanctot M、Dieleman S、Grewe D、Nham J、Kalchbrenner N、Sutskever I、Lillicrap T、Leach M、Kavukcuoglu K、Graepel T、Hassabis D(2016)通过深度神经网络和树搜索掌握围棋游戏。Nature 529(7587):484\u2013489“,”journal-title“:”Nature“},{“key”:“9702_CR19”,“doi-asserted-by”:“crossref”,“doi”:“10.1017\/CBO9781139035613”,“volume-title”:“机器学习中的密度比估计”,“author”:“M Sugiyama”,“year”:“2012”,“unstructured”:“Sugiyama-M,Suzuki T,Kanamori T(2012)机器学习中的密度比估计。剑桥大学出版社,剑桥“},{“issue”:“3”,“key”:“9702_CR20”,“doi-asserted-by”:“crossref”,“first-page”:“214”,“doi”:“10.1109\/TCIAIG.2013.2258919”,“volume”:“5”,“author”:“M Szubert”,“year”:“2013”,“unstructured”:“Szuber M,Ja\u015bkowski W,Krawiec K(2013)关于共同进化学习的可扩展性、泛化和混合:奥赛罗的案例研究。IEEE Trans-Comput Intell AI Games 5(3):214\u2013226“,”journal-title“:”IEEE Trans-Comput智能AI Games“},{“issue”:“28”,“key”:“9702_CR21”,“doi-asserted-by”:“crossref”,“first page”:”11478“,“doi”:“10.1073\/pnas.0710743106”,“volume”:《106》,“author”:“E Todorov”,“year”:“2009”,“unstructured”:“Todorove E(2009)有效计算最优行动。PNAS 106(28):11478\u201311483“,”journal-title“:”PNAS“},{“key”:“9702_CR22”,“doi-asserted-by”:“crossref”,“unstructured”:“Uchibe E(2016)Deep inverse reinforcement learning by logistic regression。In:Proceedings of the 233 international conference on neural information processing”,“doi”:“10.1007\/978-3319-46687-3_3”},”{“key”:”9702_CR2“,”doi-asserted-by“:”crossref“,”unstructured“:”Uchibe E,Doya K(2014)使用动态策略编程的反向强化学习。摘自:第四届发展与学习及表观遗传机器人国际会议论文集,第222\u2013228页,“DOI”:“10.1109\/DEVLRN.2014.6982985”},{“问题”:“11”,“关键”:“9702_CR24”,“DOI-asserted-by”:“crossref”,“第一页”:“1701”,“DOI:”10.1109\/TNNLS.2012.2210559“,“卷”:“23”,“作者”:“S Dries van den”非结构化”:“van den Dries S,Wiering MA(2012)神经拟合TD叶学习,用于用结构化神经网络玩奥赛罗。IEEE Trans Neural Netw Learn Syst 23(11):1701\u20131713“,“journal-title”:“IEEE Trans-Neural Netw学习系统”},{“key”:“9702_CR25”,“doi-asserted-by”:“crossref”,“unstructured”:“van der Ree M,Wiering M(2013)奥赛罗游戏中的强化学习:针对固定对手学习,从自我游戏中学习。摘自:IEEE自适应动态规划和强化学习研讨会论文集,第108\u2013115页,“DOI”:“10.1109\/ADPRL.2013.6614996”},{“key”:“9702_CR26”,“DOI-asserted-by”:“crossref”,“unstructured”:“van Hasselt H,Guez A,Silver D(2016)双Q学习的深度强化学习。摘自:《第30届AAAI人工智能会议论文集》,“DOI”:“10.1609\/AAAI.v30i1.10295”},{“key”:“9702_CR27”,“unstructured”:“Wang Z,Schaul T,Hessel M,van Hasselt H,Lanctot M,de \u00a0Freitas N(2016)深入强化学习的决斗网络架构。在:《第33届机器学习国际会议论文集》中,{“key”:“9702_CR28”,“doi asserted by”:“crossref”,“first page”:“205”,“doi”:“10.1613\/jair.1190”,“volume”:“19”,“author”:“E Wiewiora”,“year”:“2003”,“nonstructured”:“Wiewiora E(2003)基于电位的整形和Q值初始化是等效的。J Artif Intell Res 19:205\u2013208“,“journal-title”:“J Artif Intel-Res”},{“key”:“9702_CR29”,“unstructured”:“Wulfmeier M,Ondr\u00fa\u0161ka P,Posner I(2015)最大熵深度反向强化学习。In:NIPS deep reinforcement learning Workshop”}、{“key”:《9702_CR10》,“unsructured(非结构化):“Wurfmeier-M,Rao D,Posner 1(2016a)将人类领域知识纳入大规模成本函数学习。在:NIPS深度强化学习研讨会“},{“key”:“9702_CR31”,“doi-asserted-by”:“crossref”,“unstructured”:“Wulfmeier M,Wang DZ,Posner I(2016b)观看:城市环境中路径规划的可扩展成本函数学习。在:IEEE \/RSJ智能机器人和系统国际会议论文集”,“doi”:“10.1109\/IROS.2016.7759328“},{“key”:“9702_CR32”,“unstructured”:“Yoshioka T,Ishii S,Ito M(1999)基于强化学习的游戏《奥赛罗》的策略获取。IEICE Trans-Inf Syst E82-D(12):1618\u20131626”},},“key“:”9702_CR.33“,”非结构化“:”Ziebart BD,Maas A,Bagnell JA,Dey AK(2008)最大熵反向强化学习。In:第23届AAAI人工智能会议论文集“}”,“container-title”:[“Neural Processing Letters”],“original-title“:[],“language”:“en”,“link”:[{“URL”:“http://\/link.springer.com\/article\/10.1007\/s11063-017-9702-7\/fulltext.html”,“content-type”:“text\/html”,“content-version”:“vor”,“intended-application”:“text-mining”},{URL“:”http://\/link.springer.com/content\/pdf\/10.1007\/s11063-017-9702-7.pdf“,”content-type“:”application\/pdf“、”content-version“:”vor“、”intended-application“:”text-mining“}、{“URL”:”http://\\/link.stringer.com\/content\/pdf\/10.1007\/s110630-17-9702-6.pdf应用程序“:”相似性检查“}”,“存放”:{“日期-部分”:[[2022,8,2]],“日期-时间”:“2022-08-02T17:16:37Z”,“时间戳”:1659460597000},“分数”:1,“资源”:{-“主要”:{:“URL”:“http://\/link.springer.com\/10.1007\/s11063-017-9702-7”},”副标题“:[],”短标题“:[],”发布“:{”日期-部分“:[2017,9,8]]},“references-count”:33,“journal-issue”:{“issue”:“3”,“published-print“:{”date-parts“:[[2018,6]]}},”alternative-id“:[”9702“],”URL“:”http://\/dx.doi.org\/10.1007\/s11063-017-9702-7“,”relation“:{},“ISSN”:[”1370-4621“,”1573-773X“],“ISSN-type”:[{“value”:“1370-4621',”type“:”print“},{“value”:“1573-773G”,“type”:“电子”}],“主题”:[],“发布”:{“日期部分”:[[2017,9,8]]}}}