{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2024,9,10]],“日期-时间”:“2024-09-10T07:18:45Z”,“时间戳”:1725952725763},“引用-计数”:48,“发布者”:“Elsevier BV”,“许可证”:[{“开始”:{“日期-零件”:[2021,3,1]],”“日期-时刻”:“021-03-01T00:00Z“,”timestamp“:1614556800000},”content-version“:“tdm”,“延迟天数”:0,“URL”:“https:\/\/weelsevier.com\/tdm\/userlicense\/1.0\/”},{“开始”:{“日期部分”:[[2020,12,7],“日期时间”:“2020-12-07T00:00:00Z”,“时间戳”:1607299200000},“内容版本”:“vor”,“延迟天数”:0,“URL”:“http:\/\/ccreativecommons.org/licenses\/by nc nd\/4.0\/”}],“资助者”:[{”DOI“:”10.13039\/50110001691“,”名称“:“日本科学促进会”,“doi-aserted-by”:“publisher”,“id”:[{“id”:“10.13039\/501100001691”,“id-type”:“doi”,“asserted-by“:”publisher“}]},{“doi“断言者”:“发布者”}]}],“content-domain”:{“domain”:[“elsevier.com”,“sciencedirect.com”],“crossmark-restriction”:true},“short-container-title”:[“Neural Networks”],”published-print“:{”date-parts“:[[2021,3]]},”DOI“:”10.1016\/j.neunet.2020.20.01“,”type“:”journal-article“,”created“:{”date-ports“:[20200,12,8]],”date-time“:”2020-12-08T1 7:28:19Z“,”时间戳“:1607448499000},“page”:“115-126”,“update-policy”:”http://\/dx.doi.org\/10.1016\/elsevier_cm_policy“,”source“:”Crossref“,“is-referenced-by-count”:33,“special_numbering”:“C”,“title”:[“模块化深度强化学习机器人导航奖惩”],“prefix”:“10.1016”,”volume“:“135”,“author”:[{“ORCID”::“http://\/ORCID.org\/00000-0002-3286-3711”,“authenticated-orcid”:false,“given”:“Jiexin”,“family”:“Wang”,“sequence”:“first”,“affiliation”:[]},“giving”:“Stefan”,”family“:”Elfwing“,”sequence“:”additional“,”affiliance“:[]]},”given“:”Eiji“,”faily“:“Uchibe”,“序列”:“additional”,“从属关系”:[]}],“member”:“78”,“reference”:[{“key”:”10.1016\/j.neu净2020.12.001_b1“,“系列时间”:“IEEE \/RSJ智能机器人和系统国际会议论文集(第2卷)”,“首页”:“917”,“文章标题”:“基于视觉的强化学习获得的多种行为的协调”,“作者”:“Asada”,“年份”:“1994”},{“问题”:“1\u20132”,“关键”:“10.1016\/j.neunet.2020.01_b2”,”doi-asserted-by“交叉引用”,“首页”:“41”,“DOI”:“10.1023\/A:1022140919877”,“article-title”:“分层强化学习的最新进展”,“卷”:“13”,“作者”:“Barto”,“年份”:“2003”,“日记标题”:“离散事件动态系统”},{“key”:“101016\/j.neunet.2020.01.001_b3”,“series-title”:“全国人工智能会议论文集(第21卷),第1期”,“首页”:“318”,“文章标题”:“关于现实世界部分编程模块化强化学习的困难”,“作者”:“Bhat”,“年份”:“2006”},{“关键”:“10.1016\/j.neunet.2020.20.01_b4”,“系列标题”:《ICML(第98卷)》,“首版”:“118”,“论文标题”:“分层强化学习的MAXQ方法”,“author”:“Dietterich”,“year”:“1998”},{“issue”:“6”,“key”:“10.1016\/j.neunet.2020.01_b5”,“doi-asserted-by”:“crossref”,“first page”:《1347》,“doi”:“101162\/089976602753712972”,“article-title”:“基于多模型的强化学习”,“volume”:第14卷,“auther”:“Doya”,《year》:“2002”,“journal-title”:“神经计算”},{“issue”:“2”,“key”:“10.1016\/j.neunet.2020.20.01_b6”,“doi-asserted-by”:“crossref”,“first-page”:“99”,“doi”:“101109\/MRA.2006.1638022”,《article-title》:“同步定位和映射:第i部分”,“volume”:“13”,“author”:“Durrant-Whyte”,“year”:“2006”,“jornal-tittle”:《IEEE机器人与自动化杂志》},{“issue”:“17”,“key”:“10.1016\/j.neunet.2020.20.01_b7”,“doi-asserted-by”:“crossref”,“first page”:《4812》,“doi”:“101073\/pnas.1519829113”,《article-title》:“纹状体结构和功能预测学习中避免疼痛的个体偏见”,“volume”:第113页,“author”:“Eldar”,“year”:“2016”,“journal-title”:“美国国家科学院院刊”},{“key”:“10.1016\/j.neunet.2020.20.01_b8”,“doi-asserted-by”:“crossref”,“unstructured”:“Elfwing,S.,&Seymour,B.(2017).人类和机器人的并行奖惩控制:使用MaxPain算法进行安全强化学习。程序中。第七届IEEE发展与学习及表观遗传机器人联合国际会议。“,”DOI“:”10.1109\/DEVLRN.2017.8329799“},”{“key”:“10.1016\/j.neunet.2020.20.01_b9”,“series-title”:“学习独立获得的奖励函数”,“author”:“Grimm”,“year”:“2019”},{“密钥”:“101016\/j.neunet.2020.12.001_b10”,“首页”:“135”,“article-title”:”使用强化学习的行动选择方法“,”卷:“4”,“作者”:“汉弗莱斯”,“年份:“1996”,“新闻标题”:“从动物到动画”},{“key”:“10.1016\/j.neunet.2020.20.01_b11”,“series-title”:“无监督辅助任务的强化学习”,“author”:“Jaderberg”,“year”:“2016”}article-title“:”机器人导航广义计算图的自我监督深度强化学习“,”author“:”Kahn“,”year“:”2018“},{“key”:“10.1016\/j.neunet.2020.01_b13”,“series-title”:“learning to solve multiple goals”,“author”:“Karlsson”,“year”:“1997”},“key“:”10.1016\/j.newnet.2020.1001_b14“,”series-ttle“:“”好奇心驱动的对已学会的非纠缠目标空间的探索”,“作者”:“Laversanne-Finot”,“年份”:“2018”},{“关键”:“10.1016\/j.neunet.2020.01_b15”,“doi-asserted-by”:“crossref”,“首页”:“137”,”doi“:”10.1016\/j.cobeha.2018.12.012“,”article-title“:”大脑和机器人决策\u2014跨学科方法案例“,”卷“:”26“,”作者“:”Lee“,”年份“:”2019“,”新闻标题“:”行为科学的当前观点“},{“问题”:“1”,“关键”:“10.1016\/j.neunet.2020.1001_b16”,“首页”:“1334”,“文章标题”:“深度视觉运动政策的端到端培训”,“卷”:“17”,“作者”:“Levine”,“年份”:“2016”,“新闻标题”:”机器学习研究杂志“}、{“issue“:”4\u20135“,”key“:”10.1016\/j.neunet.2020.20.01_b17“,”doi-asserted-by“:”crossref“,”first page“:“421”,”doi“:”101177\/0278364917710318“,”article-title“:”通过深度学习和大规模数据收集学习机器人抓取的手眼协调“,”volume“:37”,“author”:“Levine”,“year”:“2018”,“journal-title”:“”国际机器人研究杂志“},{”key“:”10.1016\/j.neunet.2020.20.01_b18“,”series-title“:”神经信息处理系统的进展“,”首页“:”6212“,”article-title“:“用于强化学习的分配报酬分解”,“author”:“Lin”,“year”:“2019”},“issue”:“3”,“key”:“10.1016\\j.neunet.2020.12.001_b19”,“第一页“:”385“,”article-title“:”多目标强化学习:综合概述“,”volume“:”45“,”author“:”Liu“,”year“:”2014“,”journal-title”:“IEEE Transactions on Systems,Man,and Cybernetics:Systems”},{“key”:“10.1016\/j.neunet.2020.20.01_b20”,“doi-asserted-by”:“crossref”,“unstructured”:“Lowe,R.,&Ziemke,T.(2013)探究强化学习中奖惩关系。程序中。IEEE自适应动态规划和强化学习研讨会(第140\u2013147页)。“,”DOI“:”10.1109\/ADPRL.203.6615000“},{”key“:”10.1016\/j.neuet.200.12.001_b21“,”系列标题“:”学习在复杂环境中导航“,”作者“:”Mirowski“,”年份“:”2016“},{”key“:”10.1016\/j.neuet.200.12.001_b22“,”非结构化“:”Mnih,V.,Badia,A.P.,Mirza,M.,Graves,A.,Lillicrap,T.,&Harley,T.等人(2016).深度强化学习的异步方法。在机器学习国际会议上(pp.1928\u20131937)。“},{”issue“:”7540“,”key“:”10.1016\/j.neunet.2020.20.01_b23“,”doi-asserted-by“:”crossref“,”first page“:“529”,”doi“:”101038\/nature14236“,”article-title“:”通过深度强化学习进行人性化控制“,”volume“:\/j.neunet.2020.12.001_b24“,”doi断言者:“crossref”,“首页”:“329”,“doi”:“10.1016\\S0896-6273(03)00169-7”,“文章标题”:“人类大脑中的时间差异模型和奖励相关学习”,“卷”:“38”,“作者”:“O\u2019Doherty”,“年份”:“2003”,“期刊标题”:“神经元”},{“密钥”:“10.1016\\j.neuet.200.12.001_b25”,“doi断言者:”crossref“,”非结构化“:”Okada,H.、Yamakawa,H.和Omori,T.(2001)。二维评价强化学习。程序中。人工神经网络国际工作会议(第370\u2013377页)。“,”DOI“:”10.1007\/3-540-45720-8_43“},{“key”:”10.1016\/j.neunet.2020.01_b26“,”series-title“:”神经信息处理系统的进展“,”首页“:”1043“,”article-title“:“机器层次结构的强化学习”,“author”:“Parr”,“year”:“1998”},“key“:”101016\/j.neunet.2020.12.001_b27“,”DOI-asserted-by“:”crossref“,”首页“:”67“,”DOI“:”10.1613\/jair.3987“,”article-title“:”多目标顺序决策调查“,”volume“:”48“,”author“:”Roijers“,”year“:”2013“,”journal-title”:“journal of Artificial Intelligence Research”},{“key”:“10.1016\/j.neunet.200.12.001_b28”,“unstructured”:“Russell,S.j.,&Zimdars,A.(2003)强化学习代理的Q分解。第20届机器学习国际会议论文集(第656\u2013663页)。“},{”issue“:”18“,”key“:”10.1016\/j.neunet.2020.01_b29“,”doi-asserted-by“:”crossref“,”first page“:“4826”,”doi“:”101523\/JNEUROSCI.0400-07.2007“,”article-title“:”人类纹状体损失和收益的差异编码“,”volume“::”27“,”author“:”Seymour“,“year”:“2007”,”journal title“:“journal of Neuroscience”},”{“issue”:“17”,“key”:“10.1016\/j.neunet.2020.20.01_b30“,”doi-asserted-by“:”crossref“,”first page“:”5833“,”doi“:”10.1523\/JNEUROSCI.0053-12.2012“,”article-title“:”Serotonin选择性调节人类决策中的奖赏值“,”volume“:10.1016\/j.neuet.200.12.001_b31”,“doi断言者”:“crossref”,“第一页”:“664”,“doi”:“10.1038\/nature02581”,“文章标题”:“时间差异模型描述人类的高阶学习”,“卷”:“429”,“作者”:“Seymour”,“年份”:“2004”,“期刊标题”:“Nature”},{“issue”:“7676”,“key”:“10.1016\/j.neuet.200.12.001_b32”,“doi断言者”:“crossref“,”first page“:”354“,”DOI“:”10.1038\/nature24270“,”article-title“:”掌握无人类知识的围棋游戏“,”volume“:“550”,”author“:”Silver“,”year“:”2017“,”journal-title”:“Nature”},{“key”:“10.1016\/j.neunet.200.12.001_b33”,“DOI-asserted-by”:“crossref.”,“unstructured”:“Simpkins,C.,&Isbell,C.(2019).可组合模块强化学习。《AAAI人工智能会议记录》(第33卷)(第4975\u20134982页)。“,”DOI“:”10.1609\/aaai.v33i01.33014975“},{”issue“:”3\u20134“,”key“:”101016\/j.neunet.2020.01_b34“,”DOI-asserted-by“:”crossref“,”first page“:“323”,“DOI”:“10.1007\/BF00992700”,“article-title”:“通过合成基本连续任务的解决方案进行学习的转移”,“volume”:“8”,“author”:“Singh”,“year”:“1992”,“journal-title“:”机器学习“},{“key”:“10.1016\/j.neunet.2020.10.001_b35”,“series-title”:“使用模块化sarsa(0)进行多目标强化学习”,“author”:“Sprague”,“year”:“2003”},{”key“:”10.1016\/j.neunet.202.12.001_b36“,”series-ttle“:”强化学习简介(第2卷),第4期“,”author“:”Sutton“,”年:“1998”}0.001_b37英寸,“非结构化”:“Sutton,R.S.,Modayil,J.,Delp,M.,Degres,T.,Pilarski,P.M.,&White,A.Horde:一种可扩展的实时架构,用于从无监督的感觉运动交互类别和主题描述符中学习知识。第十届自主代理和多代理系统国际会议记录(第761\u2013768页)。”},{“issue”:“1\u20132”,“key”:“10.1016\/j.neunet.2020.20.01_b38”,“doi-asserted-by”:“crossref”,“first page”:”181“,“doi”:“101016\/S0004-3702(99)00052-1”,“article-title”:“MDP与半MDP之间:强化学习中时间抽象的框架”,“volume”::“112”,“author”:“Sutton”,“year”:“1999”,“journal-title“:”“Artificial Intelligence”},{“key”:“10.1016\/j.neunet.2020.10.001_b39”,“series-title”:“机器人学习控制的深层网络解决方案综述:从强化到模仿”,“author”:“Tai”,“year”:“2016”},{“key”:”10.1016\/j.newnet.2020.20.01_b40“,“series-title”:”独立可控特性“,“au作者”:“Thomas”,“年份”:“2017”}、{“密钥”:“10.1016\/j.neunet.2020.10.001_b41”,“unstructured”:“Turtlebot 3 waffle-pi规范,.(2017).https:\/\/emanual.robotis.com/docs\/en\/platform\/turlbot3\/specifications\/.”},{“key”:“10.116\/j.neunet.202.12.001_b42”,“doi-asserted-by”:“crossref”,“first page”:”61“,“doi”:“10.3389\/fnbot.2018.00061”,“articlee”蒂尔”:“混合异质学习模块的合作与竞争强化与模仿学习”,“卷”:“12”,“作者”:“内比”,“年份”:“2018”,“新闻标题”:“神经机器人学的前沿”},{“关键”:“10.1016\/j.neunet.2020.01_b43”,“doi-asserted-by”:“crossref”,“非结构化”:“外比,E.,Asada,M.,&Hosoda,K.(1996)使用模块化强化学习的移动机器人行为协调。程序中。IEEE RSJ智能机器人和系统国际会议(第1329u20131336页)。“,”DOI“:”10.1109\/IROS.1996.568989“},{“key”:”10.1016\/j.neunet.2020.20.01_b44“,”series-title“:”澳大拉西亚人工智能联合会议“,”首页“:”372“,”article-title“:“关于pareto前沿多目标强化学习标量化的局限性”,“author”:“Vamplew”,“year”:“2008”},“{”key“:”10.1016\/j.neunet.2020.20.01_b45“,“series-title”:“神经信息处理系统的进展(第30卷)”,“article-title”:“强化学习的混合奖赏结构”,“author”:“Van Seijen”,“year”:“2017”},{“key”:”10.1016\/j.newnet.2020.01_b246“,”series-title“:”2018年IEEE第八届联合国际开发学习和表观遗传机器人会议”,“首页”:“175”,“文章标题”:“通过使用maxpain架构并行奖惩进行深度强化学习”,“作者”:“王”,“年份”:“2018”},{“关键”:“10.1016\/j.neunet.2020.01_b47”,“系列标题”:具有时序逻辑规范的模块化深度强化学习”,“作者”:“袁”,“年份”:“2019”},{“关键”:“10.1016\/j.neunet.2020.20.01_b48”,“系列标题”:“2017 IEEE机器人与自动化国际会议”,“首页”:“3357”,“文章标题”:”使用深度强化学习在室内场景中的目标驱动视觉导航“,”author“:”Zhu“,”year“:”2017“}],”container-title“:[”Neural Networks“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/api.elsevier.com\/content\/article\/PII:S0893608020304184?httpAccept=text\/xml“,”content-type“:”text\/xml“,”content-version“:”vor“,”intended-application“:”text-mining“},”{“URL”:“”https:\/\/api.elsevier.com/content\/article\/PII:S0893608020304184?httpAccept=text\/plain“,”content-type“:”text\/prain“,“content-version”:“vor”,“intended-application”:“text-mining”}],“deposed”:{“date-parts”:[[2021,3,14]],“date-time”:“2021-03-14T14:21:23Z”,“timestamp”:1615731683000},“score”:1,“resource”:{primary“:{”URL“https:\\/linkinghub.elsevier.com//retrieve\/pii\/S089360802 0304184“}},”副标题“:[],”短标题“:[],”已发布“:{“date-parts”:[[2021,3]]},“references-count”:48,“alternative-id”:[“S08933608020304184”],“URL”:“http://\/dx.doi.org\/10.1016\/j.neunet.2020.1001”,“relationship”:{},”ISSN“:[”0893-6080“],”ISSN-type“:[{”value“:”08936080“,”type“:”print“}],”subject:[],“published”:{“date-parts”:[[2021,3]]},“assertion”:[{“value”:“Elsevier”,“name”:“publisher“,”label“:”本文由“},{”value“:”模块化深度强化学习机器人导航奖惩“,“name”:“articletitle”,“label”:“article Title”},“value”:“Neural Networks”,“name“:”journaltitle“,”标签“:”Journal Titlelabel“:”CrossRef DOI link to publisher maintained version“},{“value”:“article”,“name”:“content_type”,“label”:“content-type”},6-“value“:”\u00a9 2020 The Author(s)s.Published by Elsevier Ltd.“,”name“:”copyright“,”label:“copyright”}]}}