{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2024,18]],“日期-时间”:“2024-01-18T01:03:35Z”,“时间戳”:1705539815765},“参考-计数”:36,“出版商”:“Frontiers Media SA”,“许可证”:[{“开始”:{-date-parts“:[[2018,9,27]],”日期-时间“:”2018-09-27T00:00:00Z“,”时间戳“:1538006400000},“content-version”:“unspecified”,“delay-in-days”:0,“URL”:“https:\/\/creativecommons.org\/licenses\/by\/4.0\/”}],“content-domain”:{“domain”:[“frontiersin.org”],“crossmark-restriction”:true},“short-container-title”:[“Front.Neurobot.”]、“DOI”:“10.3389\/fnbot.2018.00061”,“type”:“journal-article”,“created”:{-“date-parts”:[[2011 8,9,27]],“日期-时间”:“2018-09-27T04:15:50Z”,“timestamp”:1538021750000},“update-policy”:“http://\/dx.doi.org\/10.3389\/crossmark-policy”,“源”:“Crossref”,“is-referenced-by-count”:5,“标题”:[“混合异构学习模块的合作与竞争强化与模仿学习”],“前缀”:“10.3389”,“卷”:“12”,“作者”:[{“给定”:“Eiji”,“family”:“Uchibe”,“sequence”:“first”,“affiliation”:[]}],“member”:“1965”,“published-online”:{“date-parts”:[[2018,9,27]]},“reference”:[{“key”:“B1”,“article-title”:“OpenAI Gym[preprint]”,“author”:“Brockman”,“year”:“2016”,“journal-title“:”arXiv:1606.01540“},{”key“:”B2“,“first page”:1087“,”文章标题“:“Mix&match-Agent课程用于强化学习”,“volume-title”:“第35届国际机器学习会议论文集”,“author”:“Czarnecki”,“year”:“2018”},{“key”:“B3”,“doi-asserted-by”:“publisher”,《first page》:“1347”,“doi”:“10.1162\/089976602753712972”,“article-title“:”基于多模型的强化学习“volume”:“14”,“作者”:“Doya”,“年份”:“2002”,“期刊标题”:“Neural Comput.”},{“key”:“B4”,“首页”:“1329”,“文章标题”:“为连续控制进行深度强化学习的基准”,“卷标题”:“第33届国际机器学习大会论文集”,“作者”:“Duan”,“年份”:“2016”},{“key”:“B5”,“doi断言者”:“出版商”,“doi”:“10.1016\/j.neunet.2017.12.012.”,“article-title”:“强化学习中神经网络函数近似的Sigmoid-weighted线性单位”,“author”:“Elfwing”,“year”:“2018”,“journal-title“:“neural Netw”},{“key”:“B6”,“article-title”:“不完美演示的强化学习”,“volume-title(卷):“ICLR 2018研讨会”,“作者”:“Gao”,“年份”:“2018年”},{“key”:“B7”,“首页”:“1861”,“article-title”:“软actor-critic:使用随机actor的非政策最大熵深度强化学习”,“volume-title“:“第35届国际机器学习会议论文集”,“author”:“Haarnoja”,“year”:“2018”}:“10.1609\/aaai.v32i1.11694”,“article-title”:“重要的深层强化学习”,“volume-title“:“第32届aaai人工智能会议论文集”,“author”:“Henderson”,“year”:“2018”},{“key”:“B9”,“doi-asserted-by”:“crossref”,“doi”:“10.1699\/aai.v32i1.1 1757”,“article-titel”:“从演示中深度Q-学习”,“volume-title”:“第三十二届AAAI人工智能会议论文集”,“author”:“Hester”,“year”:“2018”},{“key”:“B10”,“doi-asserted-by”:“publisher”,“first page”:《642》,“doi”:“10.1016\/j.neunet.2008.03.014.”,《article-title》:“动物和机器人运动控制的中央模式生成器:综述”,“volution”::“Ijspeert”,“year”:“2008”,“journal-title”:“Neural Netw.”},{“key”:“B11”,“doi-asserted-by”:“publisher”,“first page”:”205“,“doi”:“10.1007\/s10994-011-5251-x”,“article-title“:“通过参数化学习问题表征强化学习方法”,“volume”:“84”,“author”:“Kalyanakrishnan”,“年份”:“2011”,“日记标题”:“Mach.Learn”},{“key”:“B12”,“doi-asserted-by”:“publisher”,“first page”::“1238”,“doi”:“10.1177\/0278364913495721”,“article-title”:“机器人强化学习:调查”,“volume”:《32》,“author”:“Kober”,《year》:“2013”,“journal title”:《Int.J.Robot.Res.》}:“学习表征国际会议论文集”,“author”:“Lillicrap”,“year”:“2016”},{“key”:“B14”,“first-page”:“417”,“article-title”:“通过搜索有限策略的空间解算POMDP”,“volume-title“:“Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence”,“author”:“Meuleau”,”year“1999”}:“B15”,“volume-title”:“基于渐进强化学习的探索”,“author”:“Meuleau”,“year”:“2001”},{“key”:“B16”,“doi-asserted-by”:“publisher”,《first page》:“529”,“doi”:“10.1038\/nature14236”,“article-title“:”通过深度强化学习进行人性化控制“,”volume:“518”,“author”:“Mnih”,“年份”:“2015”,“journal title”:《Nature》},{“key”:“B17”,“doi asserted by”:“publisher”,“first page”:“37”,“doi”:“10.1016/S0921-8890(01)00113-0”,“文章标题”:“真实机器人使用分层强化学习获得站立行为”,“volume”:“36”,“author”:“Morimoto”,“year”:“2001”,“journal title”:“robot.Auton.Syst.”},{“key”:“B18”,“doi asserted by”:“crossref”,“doi”:“10.1109\/ICRA.2018.8463162”,“article-title”:“通过演示克服强化学习中的探索”,“volume-title“:IEEE机器人与自动化国际会议论文集”,“author”:“Nair”,“year”:“2018”},{“key”:“B19”,“article-title”:“函数逼近的非政策时差学习”,“volume-tittle”:“第十八届国际机器学习会议论文集”,“author”:“Precup”,“year”:“2001”},{“key”:“B20”,“first page”:《1452》,“article-title”:“Q-error as a selection mechanism in modular reinforcement Learning systems”,“volume-title“:“Proceedings of the 22nd International Joint Conference on Artificial Intelligence”,“作者”:“Ring”,“year”:“2011”},{“key”:“B21”,“author”:“Rummery”,“year:”1994“,“journal-title”:“On-Line Q-Learning Using Connectivisist Systems.”}“年份”:“2016年”,“journal-title”:“Nature”},{“key”:“B23”,“first-page”:“387”,“article-title):“确定性策略梯度算法”,“volume-title“:“第31届国际机器学习会议论文集”,“author”:“Silver”,“year”:“2014”};{“key”:”B24“,”doi-asserted-by“:”publisher“,”first-page:“354”,“doi”:“10.1038\\nature24270”,“article-title”:“在没有人类知识的情况下掌握围棋游戏”,“卷”:“550”,“作者”:“银牌”,“年份”:“2017年”,“新闻标题”:“自然”},{“密钥”:“B25”,“doi-asserted-by”:“crossref”,《首页》:“323”,“doi”:“10.1007\/BF00992700”,“文章标题”:《通过组成基本连续任务的解决方案进行学习的转移》,“卷“:”:“8”,“作家”:“辛格”,“年”:“1992”,“期刊标题”:“Mach.Elearn.”},{“key”:“B26”,“首页”:“3404”,“文章标题”:“移动机器人的有效强化学习”,“卷标题”:“IEEE国际机器人与自动化会议论文集”,“作者”:“Smart”,“年份”:“2002”},{“key”:“B27”,“卷标题”:“强化学习”,“作者”:“Sutton”,“年份”:“1998”},{“key”:“B28”,“doi-asserted-by”:“crossref”,“first page”:”181“,“doi”:“10.1016\/S0004-3702(99)00052-1”,“article-title”:“MDP与半MDP之间:强化学习中时间抽象的框架”,“volume”::“112”,“author”:“Sutton”,“year”:“1999”,“journal-title“:”Artif.Intell.“蒂尔”:“MuJoCo:基于模型控制的物理引擎”,“卷-时间”:“IEEE\/RSJ智能机器人和系统国际会议论文集”,“作者”:“Todorov”,“年份”:“2012”},{“关键”:“B30”,“首页”:“287”,“文章-时间”:“第八届自适应行为模拟国际会议论文集:从动物到动画8”,“作者”:“Uchibe”,“年份”:“2004”},{“key”:“B31”,“首页”:“87”,“article-title”:“多个异构模块的强化学习:开发机器人学习的框架”,“volume-title“:“第四届IEEE国际发展与学习会议论文集”,“作者”:“Uchibe”,“年份”:“2005”},{“key”:“B32”,“首页”:“5252”,“文章标题”:“结合学习的控制器以基于线性可解MDP实现新目标”,“卷标题”:《IEEE国际机器人与自动化会议论文集》,“author”:“Uchibe”,“year”:“2014”},{“key”:“B33”,“doi-asserted-by”:“crossref”,“first page”::“279”,“doi”:“10.1007\/BF00992698”,“article-title”:“Q-learning”,“volume”:”8“,”author“:”Watkins“,“year:”1992“,”journal-title“:”Machine Learn.“},}”key“:”B34“unstructured”:“强化学习的进化函数近似877917 WhitesonS.StoneP.J.Mach.Learn.Res.72006”},{“key”:“B35”,“doi-asserted-by”:“crossref”,“first-page”:“229”,“doi”:“10.1007\/BF00992696”,“article-title”:“连接主义强化学习的简单统计梯度允许算法”,“volume”:”:“8”,“author”:“Williams”,“年份”:“1992年”,“新闻标题”:“机器学习”},{“key”:“B36”,“doi-asserted-by”:“crossref”,“doi”:“10.1109\/ICRA.2018.8461203”,“article-title”:“使用训练轮学习:使用简单控制器加速训练,以实现深度强化学习”,“volume-title“IEEE机器人与自动化国际会议论文集”,“author”:“Xie”,“year”:“2018”}],“container-title”:[“Frontiers in Neurorobotis”],“original-title“:[],“link”:[{“URL”:“https:\/\/www.frontiersin.org\/article\/10.3389\/fnbot.2018.0061\/full”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“similarity-checking”},“deposed”:{“date-parts”:[2022,9,2],“日期-时间”:“2022-09-02T20:45:29Z”,“timestamp”:1662151529000},“score”:1,“resource”:{“primary”:{“URL”:“https:\/\/www.frontiersin.org\/article\/10.3389\/fnbot.2018.0061\/full”}},”subtitle“:[],”shorttitle“:[],”issued“:{”date-parts“:[2018,9,27]]}”,“references-count”:36,“alternative-id”:[“10.3389\/fc bot.2018.00061“],”URL“:“http://\/dx.doi.org\/10.3389\/fnbot.2018.00061”,“关系”:{},“ISSN”:[“1662-5218”],“ISSN-type”:[{“值”:“1662-51218”,“类型”:“电子”}],“主题”:[],“发布”:{“日期-部件”:[[2018,9,27]}}}}