{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期-部件”：[[2024,18]]，“日期-时间”：“2024-01-18T01:03:35Z”，“时间戳”：1705539815765}，“参考-计数”：36，“出版商”：“Frontiers Media SA”，“许可证”：[{“开始”：{-date-parts“：[[2018,9,27]]，”日期-时间“：”2018-09-27T00:00:00Z“，”时间戳“：1538006400000}，“content-version”：“unspecified”，“delay-in-days”：0，“URL”：“https:\/\/creativecommons.org\/licenses\/by\/4.0\/”}]，“content-domain”：{“domain”:[“frontiersin.org”]，“crossmark-restriction”：true}，“short-container-title”：[“Front.Neurobot.”]、“DOI”：“10.3389\/fnbot.2018.00061”，“type”：“journal-article”，“created”：{-“date-parts”：[[2011 8,9,27]]，“日期-时间”：“2018-09-27T04:15:50Z”，“timestamp”：1538021750000}，“update-policy”：“http://\/dx.doi.org\/10.3389\/crossmark-policy”，“源”：“Crossref”，“is-referenced-by-count”：5，“标题”：[“混合异构学习模块的合作与竞争强化与模仿学习”]，“前缀”：“10.3389”，“卷”：“12”，“作者”：[{“给定”：“Eiji”，“family”：“Uchibe”，“sequence”：“first”，“affiliation”：[]}]，“member”：“1965”，“published-online”：{“date-parts”：[[2018,9,27]]}，“reference”：[{“key”：“B1”，“article-title”：“OpenAI Gym[preprint]”，“author”：“Brockman”，“year”：“2016”，“journal-title“：”arXiv:1606.01540“}，{”key“：”B2“，“first page”：1087“，”文章标题“：“Mix&match-Agent课程用于强化学习”，“volume-title”：“第35届国际机器学习会议论文集”，“author”：“Czarnecki”，“year”：“2018”}，{“key”：“B3”，“doi-asserted-by”：“publisher”，《first page》：“1347”，“doi”：“10.1162\/089976602753712972”，“article-title“：”基于多模型的强化学习“volume”：“14”，“作者”：“Doya”，“年份”：“2002”，“期刊标题”：“Neural Comput.”}，{“key”：“B4”，“首页”：“1329”，“文章标题”：“为连续控制进行深度强化学习的基准”，“卷标题”：“第33届国际机器学习大会论文集”，“作者”：“Duan”，“年份”：“2016”}，{“key”：“B5”，“doi断言者”：“出版商”，“doi”：“10.1016\/j.neunet.2017.12.012.”，“article-title”：“强化学习中神经网络函数近似的Sigmoid-weighted线性单位”，“author”：“Elfwing”，“year”：“2018”，“journal-title“：“neural Netw”}，{“key”：“B6”，“article-title”：“不完美演示的强化学习”，“volume-title（卷）：“ICLR 2018研讨会”，“作者”：“Gao”，“年份”：“2018年”}，{“key”：“B7”，“首页”：“1861”，“article-title”：“软actor-critic：使用随机actor的非政策最大熵深度强化学习”，“volume-title“：“第35届国际机器学习会议论文集”，“author”：“Haarnoja”，“year”：“2018”}：“10.1609\/aaai.v32i1.11694”，“article-title”：“重要的深层强化学习”，“volume-title“：“第32届aaai人工智能会议论文集”，“author”：“Henderson”，“year”：“2018”}，{“key”：“B9”，“doi-asserted-by”：“crossref”，“doi”：“10.1699\/aai.v32i1.1 1757”，“article-titel”：“从演示中深度Q-学习”，“volume-title”：“第三十二届AAAI人工智能会议论文集”，“author”：“Hester”，“year”：“2018”}，{“key”：“B10”，“doi-asserted-by”：“publisher”，“first page”：《642》，“doi”：“10.1016\/j.neunet.2008.03.014.”，《article-title》：“动物和机器人运动控制的中央模式生成器：综述”，“volution”：：“Ijspeert”，“year”：“2008”，“journal-title”：“Neural Netw.”}，{“key”：“B11”，“doi-asserted-by”：“publisher”，“first page”：”205“，“doi”：“10.1007\/s10994-011-5251-x”，“article-title“：“通过参数化学习问题表征强化学习方法”，“volume”:“84”，“author”：“Kalyanakrishnan”，“年份”：“2011”，“日记标题”：“Mach.Learn”}，{“key”：“B12”，“doi-asserted-by”：“publisher”，“first page”：：“1238”，“doi”：“10.1177\/0278364913495721”，“article-title”：“机器人强化学习：调查”，“volume”：《32》，“author”：“Kober”，《year》：“2013”，“journal title”：《Int.J.Robot.Res.》}：“学习表征国际会议论文集”，“author”：“Lillicrap”，“year”：“2016”}，{“key”：“B14”，“first-page”：“417”，“article-title”：“通过搜索有限策略的空间解算POMDP”，“volume-title“：“Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence”，“author”:“Meuleau”，”year“1999”}：“B15”，“volume-title”：“基于渐进强化学习的探索”，“author”：“Meuleau”，“year”：“2001”}，{“key”：“B16”，“doi-asserted-by”：“publisher”，《first page》：“529”，“doi”：“10.1038\/nature14236”，“article-title“：”通过深度强化学习进行人性化控制“，”volume：“518”，“author”:“Mnih”，“年份”：“2015”，“journal title”：《Nature》}，｛“key”：“B17”，“doi asserted by”：“publisher”，“first page”：“37”，“doi”：“10.1016/S0921-8890（01）00113-0”，“文章标题”：“真实机器人使用分层强化学习获得站立行为”，“volume”：“36”，“author”：“Morimoto”，“year”：“2001”，“journal title”：“robot.Auton.Syst.”｝，｛“key”：“B18”，“doi asserted by”：“crossref”，“doi”：“10.1109\/ICRA.2018.8463162”，“article-title”：“通过演示克服强化学习中的探索”，“volume-title“：IEEE机器人与自动化国际会议论文集”，“author”：“Nair”，“year”：“2018”}，{“key”：“B19”，“article-title”：“函数逼近的非政策时差学习”，“volume-tittle”：“第十八届国际机器学习会议论文集”，“author”：“Precup”，“year”：“2001”}，{“key”：“B20”，“first page”：《1452》，“article-title”：“Q-error as a selection mechanism in modular reinforcement Learning systems”，“volume-title“：“Proceedings of the 22nd International Joint Conference on Artificial Intelligence”，“作者”：“Ring”，“year”：“2011”}，{“key”：“B21”，“author”：“Rummery”，“year:”1994“，“journal-title”：“On-Line Q-Learning Using Connectivisist Systems.”}“年份”：“2016年”，“journal-title”：“Nature”}，{“key”：“B23”，“first-page”：“387”，“article-title）：“确定性策略梯度算法”，“volume-title“：“第31届国际机器学习会议论文集”，“author”：“Silver”，“year”：“2014”}；{“key”：”B24“，”doi-asserted-by“：”publisher“，”first-page:“354”，“doi”：“10.1038\\nature24270”，“article-title”：“在没有人类知识的情况下掌握围棋游戏”，“卷”：“550”，“作者”：“银牌”，“年份”：“2017年”，“新闻标题”：“自然”}，{“密钥”：“B25”，“doi-asserted-by”：“crossref”，《首页》：“323”，“doi”：“10.1007\/BF00992700”，“文章标题”：《通过组成基本连续任务的解决方案进行学习的转移》，“卷“：”：“8”，“作家”：“辛格”，“年”：“1992”，“期刊标题”：“Mach.Elearn.”}，{“key”：“B26”，“首页”：“3404”，“文章标题”：“移动机器人的有效强化学习”，“卷标题”：“IEEE国际机器人与自动化会议论文集”，“作者”：“Smart”，“年份”：“2002”}，{“key”：“B27”，“卷标题”：“强化学习”，“作者”：“Sutton”，“年份”：“1998”}，{“key”：“B28”，“doi-asserted-by”：“crossref”，“first page”：”181“，“doi”：“10.1016\/S0004-3702（99）00052-1”，“article-title”：“MDP与半MDP之间：强化学习中时间抽象的框架”，“volume”：：“112”，“author”：“Sutton”，“year”：“1999”，“journal-title“：”Artif.Intell.“蒂尔”：“MuJoCo:基于模型控制的物理引擎”，“卷-时间”：“IEEE\/RSJ智能机器人和系统国际会议论文集”，“作者”：“Todorov”，“年份”：“2012”}，{“关键”：“B30”，“首页”：“287”，“文章-时间”：“第八届自适应行为模拟国际会议论文集：从动物到动画8”，“作者”：“Uchibe”，“年份”：“2004”}，{“key”：“B31”，“首页”：“87”，“article-title”：“多个异构模块的强化学习：开发机器人学习的框架”，“volume-title“：“第四届IEEE国际发展与学习会议论文集”，“作者”：“Uchibe”，“年份”：“2005”}，{“key”：“B32”，“首页”：“5252”，“文章标题”：“结合学习的控制器以基于线性可解MDP实现新目标”，“卷标题”：《IEEE国际机器人与自动化会议论文集》，“author”：“Uchibe”，“year”：“2014”}，{“key”：“B33”，“doi-asserted-by”：“crossref”，“first page”：：“279”，“doi”：“10.1007\/BF00992698”，“article-title”：“Q-learning”，“volume”：”8“，”author“：”Watkins“，“year:”1992“，”journal-title“：”Machine Learn.“}，}”key“：”B34“unstructured”：“强化学习的进化函数近似877917 WhitesonS.StoneP.J.Mach.Learn.Res.72006”}，{“key”：“B35”，“doi-asserted-by”：“crossref”，“first-page”：“229”，“doi”：“10.1007\/BF00992696”，“article-title”：“连接主义强化学习的简单统计梯度允许算法”，“volume”：”：“8”，“author”：“Williams”，“年份”：“1992年”，“新闻标题”：“机器学习”}，{“key”：“B36”，“doi-asserted-by”：“crossref”，“doi”：“10.1109\/ICRA.2018.8461203”，“article-title”：“使用训练轮学习：使用简单控制器加速训练，以实现深度强化学习”，“volume-title“IEEE机器人与自动化国际会议论文集”，“author”：“Xie”，“year”：“2018”}]，“container-title”：[“Frontiers in Neurorobotis”]，“original-title“：[]，“link”：[{“URL”：“https:\/\/www.frontiersin.org\/article\/10.3389\/fnbot.2018.0061\/full”，“content-type”：“unspecified”，“content-version”：“vor”，“intended-application”：“similarity-checking”}，“deposed”：{“date-parts”：[2022,9,2]，“日期-时间”：“2022-09-02T20:45:29Z”，“timestamp”：1662151529000}，“score”：1，“resource”：{“primary”：{“URL”：“https:\/\/www.frontiersin.org\/article\/10.3389\/fnbot.2018.0061\/full”}}，”subtitle“：[]，”shorttitle“：[]，”issued“：{”date-parts“：[2018,9,27]]}”，“references-count”：36，“alternative-id”：[“10.3389\/fc bot.2018.00061“]，”URL“：“http://\/dx.doi.org\/10.3389\/fnbot.2018.00061”，“关系”：{}，“ISSN”：[“1662-5218”]，“ISSN-type”：[{“值”：“1662-51218”，“类型”：“电子”}]，“主题”：[]，“发布”：{“日期-部件”：[[2018,9,27]}}}}