{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期-部件”：[[2024,9,10]]，“日期-时间”：“2024-09-10T07:18:45Z”，“时间戳”：1725952725763}，“引用-计数”：48，“发布者”：“Elsevier BV”，“许可证”：[{“开始”：{“日期-零件”：[2021,3,1]]，”“日期-时刻”：“021-03-01T00:00Z“，”timestamp“：1614556800000}，”content-version“：“tdm”，“延迟天数”：0，“URL”：“https:\/\/weelsevier.com\/tdm\/userlicense\/1.0\/”｝，｛“开始”：｛“日期部分”：[[2020,12,7]，“日期时间”：“2020-12-07T00:00:00Z”，“时间戳”：1607299200000｝，“内容版本”：“vor”，“延迟天数”：0，“URL”：“http:\/\/ccreativecommons.org/licenses\/by nc nd\/4.0\/”｝]，“资助者”：[｛”DOI“：”10.13039\/50110001691“，”名称“：“日本科学促进会”，“doi-aserted-by”：“publisher”，“id”：[{“id”:“10.13039\/501100001691”，“id-type”：“doi”，“asserted-by“：”publisher“}]}，{“doi“断言者”：“发布者”}]}]，“content-domain”：{“domain”:[“elsevier.com”，“sciencedirect.com”]，“crossmark-restriction”：true}，“short-container-title”：[“Neural Networks”]，”published-print“：{”date-parts“：[[2021,3]]}，”DOI“：”10.1016\/j.neunet.2020.20.01“，”type“：”journal-article“，”created“：{”date-ports“：[20200,12,8]]，”date-time“：”2020-12-08T1 7:28:19Z“，”时间戳“：1607448499000}，“page”：“115-126”，“update-policy”：”http://\/dx.doi.org\/10.1016\/elsevier_cm_policy“，”source“：”Crossref“，“is-referenced-by-count”：33，“special_numbering”：“C”，“title”：[“模块化深度强化学习机器人导航奖惩”]，“prefix”：“10.1016”，”volume“：“135”，“author”：[{“ORCID”：：“http://\/ORCID.org\/00000-0002-3286-3711”，“authenticated-orcid”：false，“given”：“Jiexin”，“family”：“Wang”，“sequence”：“first”，“affiliation”：[]}，“giving”：“Stefan”，”family“：”Elfwing“，”sequence“：”additional“，”affiliance“：[]]}，”given“：”Eiji“，”faily“：“Uchibe”，“序列”：“additional”，“从属关系”：[]}]，“member”：“78”，“reference”：[{“key”：”10.1016\/j.neu净2020.12.001_b1“，“系列时间”：“IEEE \/RSJ智能机器人和系统国际会议论文集（第2卷）”，“首页”：“917”，“文章标题”：“基于视觉的强化学习获得的多种行为的协调”，“作者”：“Asada”，“年份”：“1994”}，{“问题”：“1\u20132”，“关键”：“10.1016\/j.neunet.2020.01_b2”，”doi-asserted-by“交叉引用”，“首页”：“41”，“DOI”：“10.1023\/A:1022140919877”，“article-title”：“分层强化学习的最新进展”，“卷”：“13”，“作者”：“Barto”，“年份”：“2003”，“日记标题”：“离散事件动态系统”}，{“key”：“101016\/j.neunet.2020.01.001_b3”，“series-title”：“全国人工智能会议论文集（第21卷），第1期”，“首页”：“318”，“文章标题”：“关于现实世界部分编程模块化强化学习的困难”，“作者”：“Bhat”，“年份”：“2006”}，{“关键”：“10.1016\/j.neunet.2020.20.01_b4”，“系列标题”：《ICML（第98卷）》，“首版”：“118”，“论文标题”：“分层强化学习的MAXQ方法”，“author”：“Dietterich”，“year”：“1998”}，{“issue”：“6”，“key”：“10.1016\/j.neunet.2020.01_b5”，“doi-asserted-by”：“crossref”，“first page”：《1347》，“doi”：“101162\/089976602753712972”，“article-title”：“基于多模型的强化学习”，“volume”：第14卷，“auther”：“Doya”，《year》：“2002”，“journal-title”：“神经计算”}，{“issue”：“2”，“key”：“10.1016\/j.neunet.2020.20.01_b6”，“doi-asserted-by”：“crossref”，“first-page”：“99”，“doi”：“101109\/MRA.2006.1638022”，《article-title》：“同步定位和映射：第i部分”，“volume”:“13”，“author”：“Durrant-Whyte”，“year”：“2006”，“jornal-tittle”：《IEEE机器人与自动化杂志》}，{“issue”：“17”，“key”：“10.1016\/j.neunet.2020.20.01_b7”，“doi-asserted-by”：“crossref”，“first page”：《4812》，“doi”：“101073\/pnas.1519829113”，《article-title》：“纹状体结构和功能预测学习中避免疼痛的个体偏见”，“volume”：第113页，“author”：“Eldar”，“year”：“2016”，“journal-title”：“美国国家科学院院刊”}，{“key”：“10.1016\/j.neunet.2020.20.01_b8”，“doi-asserted-by”：“crossref”，“unstructured”：“Elfwing，S.，&Seymour，B.（2017）.人类和机器人的并行奖惩控制：使用MaxPain算法进行安全强化学习。程序中。第七届IEEE发展与学习及表观遗传机器人联合国际会议。“，”DOI“：”10.1109\/DEVLRN.2017.8329799“}，”{“key”：“10.1016\/j.neunet.2020.20.01_b9”，“series-title”：“学习独立获得的奖励函数”，“author”：“Grimm”，“year”：“2019”}，{“密钥”：“101016\/j.neunet.2020.12.001_b10”，“首页”：“135”，“article-title”：”使用强化学习的行动选择方法“，”卷：“4”，“作者”：“汉弗莱斯”，“年份：“1996”，“新闻标题”：“从动物到动画”}，{“key”：“10.1016\/j.neunet.2020.20.01_b11”，“series-title”：“无监督辅助任务的强化学习”，“author”：“Jaderberg”，“year”：“2016”}article-title“：”机器人导航广义计算图的自我监督深度强化学习“，”author“：”Kahn“，”year“：”2018“}，{“key”：“10.1016\/j.neunet.2020.01_b13”，“series-title”：“learning to solve multiple goals”，“author”：“Karlsson”，“year”：“1997”}，“key“：”10.1016\/j.newnet.2020.1001_b14“，”series-ttle“：“”好奇心驱动的对已学会的非纠缠目标空间的探索”，“作者”：“Laversanne-Finot”，“年份”：“2018”}，{“关键”：“10.1016\/j.neunet.2020.01_b15”，“doi-asserted-by”：“crossref”，“首页”：“137”，”doi“：”10.1016\/j.cobeha.2018.12.012“，”article-title“：”大脑和机器人决策\u2014跨学科方法案例“，”卷“：”26“，”作者“：”Lee“，”年份“：”2019“，”新闻标题“：”行为科学的当前观点“}，{“问题”：“1”，“关键”：“10.1016\/j.neunet.2020.1001_b16”，“首页”：“1334”，“文章标题”：“深度视觉运动政策的端到端培训”，“卷”：“17”，“作者”：“Levine”，“年份”：“2016”，“新闻标题”：”机器学习研究杂志“}、{“issue“：”4\u20135“，”key“：”10.1016\/j.neunet.2020.20.01_b17“，”doi-asserted-by“：”crossref“，”first page“：“421”，”doi“：”101177\/0278364917710318“，”article-title“：”通过深度学习和大规模数据收集学习机器人抓取的手眼协调“，”volume“：37”，“author”：“Levine”，“year”：“2018”，“journal-title”：“”国际机器人研究杂志“}，{”key“：”10.1016\/j.neunet.2020.20.01_b18“，”series-title“：”神经信息处理系统的进展“，”首页“：”6212“，”article-title“：“用于强化学习的分配报酬分解”，“author”：“Lin”，“year”：“2019”}，“issue”：“3”，“key”：“10.1016\\j.neunet.2020.12.001_b19”，“第一页“：”385“，”article-title“：”多目标强化学习：综合概述“，”volume“：”45“，”author“：”Liu“，”year“：”2014“，”journal-title”：“IEEE Transactions on Systems，Man，and Cybernetics:Systems”}，{“key”：“10.1016\/j.neunet.2020.20.01_b20”，“doi-asserted-by”：“crossref”，“unstructured”：“Lowe，R.，&Ziemke，T.（2013）探究强化学习中奖惩关系。程序中。IEEE自适应动态规划和强化学习研讨会（第140\u2013147页）。“，”DOI“：”10.1109\/ADPRL.203.6615000“｝，｛”key“：”10.1016\/j.neuet.200.12.001_b21“，”系列标题“：”学习在复杂环境中导航“，”作者“：”Mirowski“，”年份“：”2016“｝，｛”key“：”10.1016\/j.neuet.200.12.001_b22“，”非结构化“：”Mnih，V.，Badia，A.P.，Mirza，M.，Graves，A.，Lillicrap，T.，&Harley，T.等人（2016）.深度强化学习的异步方法。在机器学习国际会议上（pp.1928\u20131937）。“}，{”issue“：”7540“，”key“：”10.1016\/j.neunet.2020.20.01_b23“，”doi-asserted-by“：”crossref“，”first page“：“529”，”doi“：”101038\/nature14236“，”article-title“：”通过深度强化学习进行人性化控制“，”volume“：\/j.neunet.2020.12.001_b24“，”doi断言者：“crossref”，“首页”：“329”，“doi”：“10.1016\\S0896-6273（03）00169-7”，“文章标题”：“人类大脑中的时间差异模型和奖励相关学习”，“卷”：“38”，“作者”：“O\u2019Doherty”，“年份”：“2003”，“期刊标题”：“神经元”}，{“密钥”：“10.1016\\j.neuet.200.12.001_b25”，“doi断言者：”crossref“，”非结构化“：”Okada，H.、Yamakawa，H.和Omori，T.（2001）。二维评价强化学习。程序中。人工神经网络国际工作会议（第370\u2013377页）。“，”DOI“：”10.1007\/3-540-45720-8_43“}，{“key”：”10.1016\/j.neunet.2020.01_b26“，”series-title“：”神经信息处理系统的进展“，”首页“：”1043“，”article-title“：“机器层次结构的强化学习”，“author”：“Parr”，“year”：“1998”}，“key“：”101016\/j.neunet.2020.12.001_b27“，”DOI-asserted-by“：”crossref“，”首页“：”67“，”DOI“：”10.1613\/jair.3987“，”article-title“：”多目标顺序决策调查“，”volume“：”48“，”author“：”Roijers“，”year“：”2013“，”journal-title”：“journal of Artificial Intelligence Research”}，{“key”：“10.1016\/j.neunet.200.12.001_b28”，“unstructured”：“Russell，S.j.，&Zimdars，A.（2003）强化学习代理的Q分解。第20届机器学习国际会议论文集（第656\u2013663页）。“}，{”issue“：”18“，”key“：”10.1016\/j.neunet.2020.01_b29“，”doi-asserted-by“：”crossref“，”first page“：“4826”，”doi“：”101523\/JNEUROSCI.0400-07.2007“，”article-title“：”人类纹状体损失和收益的差异编码“，”volume“：：”27“，”author“：”Seymour“，“year”：“2007”，”journal title“：“journal of Neuroscience”}，”{“issue”：“17”，“key”：“10.1016\/j.neunet.2020.20.01_b30“，”doi-asserted-by“：”crossref“，”first page“：”5833“，”doi“：”10.1523\/JNEUROSCI.0053-12.2012“，”article-title“：”Serotonin选择性调节人类决策中的奖赏值“，”volume“：10.1016\/j.neuet.200.12.001_b31”，“doi断言者”：“crossref”，“第一页”：“664”，“doi”：“10.1038\/nature02581”，“文章标题”：“时间差异模型描述人类的高阶学习”，“卷”：“429”，“作者”：“Seymour”，“年份”：“2004”，“期刊标题”：“Nature”}，{“issue”：“7676”，“key”：“10.1016\/j.neuet.200.12.001_b32”，“doi断言者”：“crossref“，”first page“：”354“，”DOI“：”10.1038\/nature24270“，”article-title“：”掌握无人类知识的围棋游戏“，”volume“：“550”，”author“：”Silver“，”year“：”2017“，”journal-title”：“Nature”}，{“key”：“10.1016\/j.neunet.200.12.001_b33”，“DOI-asserted-by”：“crossref.”，“unstructured”：“Simpkins，C.，&Isbell，C.（2019）.可组合模块强化学习。《AAAI人工智能会议记录》（第33卷）（第4975\u20134982页）。“，”DOI“：”10.1609\/aaai.v33i01.33014975“}，{”issue“：”3\u20134“，”key“：”101016\/j.neunet.2020.01_b34“，”DOI-asserted-by“：”crossref“，”first page“：“323”，“DOI”：“10.1007\/BF00992700”，“article-title”：“通过合成基本连续任务的解决方案进行学习的转移”，“volume”：“8”，“author”：“Singh”，“year”：“1992”，“journal-title“：”机器学习“}，{“key”：“10.1016\/j.neunet.2020.10.001_b35”，“series-title”：“使用模块化sarsa（0）进行多目标强化学习”，“author”：“Sprague”，“year”：“2003”}，{”key“：”10.1016\/j.neunet.202.12.001_b36“，”series-ttle“：”强化学习简介（第2卷），第4期“，”author“：”Sutton“，”年：“1998”}0.001_b37英寸，“非结构化”：“Sutton，R.S.，Modayil，J.，Delp，M.，Degres，T.，Pilarski，P.M.，&White，A.Horde:一种可扩展的实时架构，用于从无监督的感觉运动交互类别和主题描述符中学习知识。第十届自主代理和多代理系统国际会议记录（第761\u2013768页）。”}，{“issue”：“1\u20132”，“key”：“10.1016\/j.neunet.2020.20.01_b38”，“doi-asserted-by”：“crossref”，“first page”：”181“，“doi”：“101016\/S0004-3702（99）00052-1”，“article-title”：“MDP与半MDP之间：强化学习中时间抽象的框架”，“volume”：：“112”，“author”：“Sutton”，“year”：“1999”，“journal-title“：”“Artificial Intelligence”}，{“key”：“10.1016\/j.neunet.2020.10.001_b39”，“series-title”：“机器人学习控制的深层网络解决方案综述：从强化到模仿”，“author”：“Tai”，“year”：“2016”}，{“key”：”10.1016\/j.newnet.2020.20.01_b40“，“series-title”：”独立可控特性“，“au作者”：“Thomas”，“年份”：“2017”}、{“密钥”：“10.1016\/j.neunet.2020.10.001_b41”，“unstructured”：“Turtlebot 3 waffle-pi规范，.（2017）.https:\/\/emanual.robotis.com/docs\/en\/platform\/turlbot3\/specifications\/.”}，{“key”：“10.116\/j.neunet.202.12.001_b42”，“doi-asserted-by”：“crossref”，“first page”：”61“，“doi”：“10.3389\/fnbot.2018.00061”，“articlee”蒂尔”：“混合异质学习模块的合作与竞争强化与模仿学习”，“卷”：“12”，“作者”：“内比”，“年份”：“2018”，“新闻标题”：“神经机器人学的前沿”}，{“关键”：“10.1016\/j.neunet.2020.01_b43”，“doi-asserted-by”：“crossref”，“非结构化”：“外比，E.，Asada，M.，&Hosoda，K.（1996）使用模块化强化学习的移动机器人行为协调。程序中。IEEE RSJ智能机器人和系统国际会议（第1329u20131336页）。“，”DOI“：”10.1109\/IROS.1996.568989“}，{“key”：”10.1016\/j.neunet.2020.20.01_b44“，”series-title“：”澳大拉西亚人工智能联合会议“，”首页“：”372“，”article-title“：“关于pareto前沿多目标强化学习标量化的局限性”，“author”：“Vamplew”，“year”：“2008”}，“{”key“：”10.1016\/j.neunet.2020.20.01_b45“，“series-title”：“神经信息处理系统的进展（第30卷）”，“article-title”：“强化学习的混合奖赏结构”，“author”：“Van Seijen”，“year”：“2017”}，{“key”：”10.1016\/j.newnet.2020.01_b246“，”series-title“：”2018年IEEE第八届联合国际开发学习和表观遗传机器人会议”，“首页”：“175”，“文章标题”：“通过使用maxpain架构并行奖惩进行深度强化学习”，“作者”：“王”，“年份”：“2018”}，{“关键”：“10.1016\/j.neunet.2020.01_b47”，“系列标题”：具有时序逻辑规范的模块化深度强化学习”，“作者”：“袁”，“年份”：“2019”}，{“关键”：“10.1016\/j.neunet.2020.20.01_b48”，“系列标题”：“2017 IEEE机器人与自动化国际会议”，“首页”：“3357”，“文章标题”：”使用深度强化学习在室内场景中的目标驱动视觉导航“，”author“：”Zhu“，”year“：”2017“}]，”container-title“：[”Neural Networks“]，”original-title”：[]，”language“：”en“，”link“：[{”URL“：”https:\/\/api.elsevier.com\/content\/article\/PII:S0893608020304184？httpAccept=text\/xml“，”content-type“：”text\/xml“，”content-version“：”vor“，”intended-application“：”text-mining“}，”{“URL”：“”https:\/\/api.elsevier.com/content\/article\/PII:S0893608020304184？httpAccept=text\/plain“，”content-type“：”text\/prain“，“content-version”：“vor”，“intended-application”：“text-mining”}]，“deposed”：{“date-parts”：[[2021,3,14]]，“date-time”：“2021-03-14T14:21:23Z”，“timestamp”：1615731683000}，“score”：1，“resource”：{primary“：{”URL“https:\\/linkinghub.elsevier.com//retrieve\/pii\/S089360802 0304184“}}，”副标题“：[]，”短标题“：[]，”已发布“：{“date-parts”：[[2021,3]]}，“references-count”：48，“alternative-id”：[“S08933608020304184”]，“URL”：“http://\/dx.doi.org\/10.1016\/j.neunet.2020.1001”，“relationship”：{}，”ISSN“：[”0893-6080“]，”ISSN-type“：[{”value“：”08936080“，”type“:”print“}]，”subject：[]，“published”：{“date-parts”：[[2021,3]]}，“assertion”：[{“value”：“Elsevier”，“name”：“publisher“，”label“：”本文由“}，{”value“：”模块化深度强化学习机器人导航奖惩“，“name”：“articletitle”，“label”：“article Title”}，“value”：“Neural Networks”，“name“：”journaltitle“，”标签“：”Journal Titlelabel“：”CrossRef DOI link to publisher maintained version“}，{“value”：“article”，“name”：“content_type”，“label”：“content-type”}，6-“value“：”\u00a9 2020 The Author（s）s.Published by Elsevier Ltd.“，”name“：”copyright“，”label：“copyright”}]}}