{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部分”:[[2024,7,15]],“日期-时间”:“2024-07-15T00:23:46Z”,“时间戳”:1721003026539},“参考-计数”:25,“出版商”:“Frontiers Media SA”,“资助者”:[{“DOI”:“10.13039\/5010001691”,“名称”:“日本科学促进会”,“DOI-aser泰德比”:“publisher”,“adward”:[“16K12504”],“id”:[{“id”:“10.13039\/501100001691”,“id-type”:“DOI”,“asserted-by”:“publicher”}]}],“content-domain”:{“domain”:[“frontiersin.org”],”crossmark-restriction“:true},”short-container-title“:[”Front.Neurobot.“],”DOI“:”10.3389\/fnbot.2017.0001“,”type“:”journal-article“,“创建”:{“日期-部分”:[[2017,1,23]],“日期-时间”:“2017-01-23T14:18:49Z”,“timestamp”:1485181129000},“update-policy”:“http://\/dx.doi.org\/10.3389\/crossmark-policy”,“源”:“Crossref”,“is-referenced-by-count”:5,“title”:[“Adaptive Baseline Enhances EM-Based policy Search:Validation in a View-Based Positioning Task of a Smartphone Balancer”],“前缀”:“10.3389”,“卷”:“11”,“作者”:[{“given”:“洁心”,“家庭”:“王”,“序列”:“第一”,“从属关系”:[]},{“给定”:“Eiji”,“家族”:“Uchibe”,“sequence”:“additional”,“affiliation”:[]},}“给定的”:“Kenji”、“family”:“Doya”,”sequence“:”additional“,”affiliance“:[]]],“成员”:“1965”,“在线发布”:{“日期段”:[2017,1,23]]}、“引用”:[{“key”:“B1”,“首页”:“154”,“文章标题”:“\u201c加权最大似然策略搜索方法的正则协方差估计,\u201d”,“author”:“Abdolmaleki”,“year”:“2015”},{“key”:“B2”,“doi-asserted-by”:“publisher”,”first page“:”1“,”doi“:”10.1561 \/230000021“,“article-title”:“机器人策略搜索调查”,“volume”:”2“author:”Deisenroth“,”year“:”2013“,”journal-title“:“Found.Trends Rob.”},{“key”:“B3”,“doi-asserted-by”:“publisher”,《first page》:“219”,“doi”:“10.1162\/089976600300015961”,“article-title”:“在连续时间和空间中的强化学习”,“volume”:”12“,“author”:“Doya”,”year“2000”,“journal-title“:”Neural Compute“},}“key:”“B4”,“doi-asserted-by”“:”publisher“first page:”“149”,“doi”:“10.1177\/105971230501300206”,“article-title”:“网络啮齿动物项目:探索自我保存和自我生产的适应机制”,“卷”:“13”,“作者”:“Doya”,年:“2005”,“新闻标题”:“Adapt.Behav.”},{“键”:“B5”,“doi-asserted-by”:“出版商”,“首页”:“2798”,“doi”:“10.1162\/NECO_a_00199”,“文章-标题”:“奖励加权回归,样本重用,用于强化学习中的直接政策搜索”,“卷”:“23”,“作者”:“Hachiya”,“年份”:“2011年”,“期刊标题”:“神经计算”},{“键”:“B6”,“doi-asserted-by”:“出版商”,“首页”:“159”,”doi“:”10.1162\/106365601750190398“,”文章标题“:“进化策略中的完全失范自适应”,“卷”:“9”,“作者”:“Hansen”,“年份”:“2001”,“日志标题”:“Evol.Comput.”},{“key”:“B7”,“doi-asserted-by”:“publisher”,”first page“:”171“,”doi“:”10.1007\/s10994-010-5223-6“,”article-title“:”机器人中运动基元的政策搜索“,”卷“:”84“,”作者“:”Kober“,年”:“2011”,“journal-title”:“Mach.Learn.”},{“key”:“B8”,“doi-asserted-by”:“crossref”,“article-title“:”\u201cData-efficient generalization of robot skills with contextual policy search,“u201d”,“author”:“Kupcsik”,“year”:“2013”,“doi”:“10.1609\/aaai.v27i1.8546”}\u201d“,“author”:“Mannor”,“year”:“2003”},{“key”:“B10”,“doi-asserted-by”:“crossref”,“article-title”:“\u201c相对熵策略搜索,\u201d”,“auth”:“Peters”,“年份”:“2010”,“doi”:“10.1609\/aaai.v24i1.7727”}:“\u201c通过操作空间控制的奖励加权回归进行强化学习,\u201d”,“author”:“Peters”,“year”:“2007”,“DOI”:“10.1145\/1273496.1273590”},{“key”:“B12”,“DOI asserted by”:“crossref”,“article title”:“\u201c评估cart-pole基准上的政策梯度方法和变体,\u201d”,“author”:“Riedmiller”,“year”:“2007”,“DOI”:“10.1109\/ADPRL.2007.368196”},{“key”:“B13”,“DOI-asserted-by”:“publisher”,“first-pages”:“551”,“DI:”10.1016\/j.neunet.2009.12.004“,“article-title”:“Parameter-revelosing policy gradients”,“volume”:“21”,“author”:“Sehnke”,“year”:“2010”,“journal-title“:”Neural Networks“}”,{”key“:“B14”,“文章标题“:“\u201c确定性策略梯度算法,\u201d”,“author”:“银牌”,“年份”:“2014”},{“key”:“B15”,“首页”:“281”,“article-title”:“带协方差矩阵自适应的\u201cPath积分策略改进,\u201 d”,”author“:“Stulp”,“year”:“2012”}:“强化学习的广义路径积分控制方法”,“volume”:“11”,“author”:“Theodorou”,“year”:“2010”,“journal-title”:“J.Mach.Learn.Res.”},{“key”:”B17“,”volume-title“:”Android Phone Robot的站立和平衡行为“,”author“:”Wang“,”year“:”2013:“\u201c通过安卓手机机器人控制两轮平衡和站立行为,\u201d”,“author”:“Wang”,“year”:“2014”},{“key”:“B19”,“doi-asserted-by”:“publisher”,“first-page”:“125”,“doi”:“10.1007\/s10015-015-0200-7”,“article-title”:“基于EM的政策超参数探索:应用于两轮智能手机机器人的站立和平衡”,“卷”:“21”,“作者”:“王”,“年份”:“2016年”,“新闻标题”:“Artif.Life Rob.”},{“关键”:“B20”,“首页”:“949”,“文章标题”:《自然进化战略》,“卷“:”15“作者”,“Wierstra”,“年度”:“2014年”,《新闻标题》:“J。机器。学习。研究“},{”key“:”B21“,”doi-asserted-by“:”crossref“,”article-title“:”\u201cFitness expectation maximization,“u201d”,“author”:“Wierstra”,“year”:“2008”,“doi”:“10.1007\/978-3-540-87700-4_34”},“key”:“B22”,“doi-assert-by”:“publisher”,”first page“:“229”,“doi”:”10.1023\/A:10226721406“,”article le-title“:”连接主义强化学习的简单统计梯度允许算法”,“卷”:“8”,“作者”:“威廉姆斯”,“年份”:“1992年”,“新闻标题”:“马赫。学习。“},{”key“:”B23“,”article-title“:”\u201c智能手机机器人平台的开发,\u201d“,”author“:”Yoshida“,”year“:”2012“}”,{“key”:“B24”,”doi-asserted-by“:”publisher“,”first page“:年份“:”2012“,”journal-title“:”Neural Networks“},{”key“:”B25“,”doi-asserted-by“:”publisher“,”first page“:“1512”,”doi“:”10.1162\/NECO_a_00452“,”article-title”:“利用基于参数的探索在策略梯度中高效重复使用样本”,“volume”:“25”,“author”:“Zhao”,“year”:“2013”,“journal-title”:“Neural Comput.”}],“container-title(容器)”:[“Neurorobotics的前沿”],“原标题“:[],”链接“:[{”URL“:”http:\/\/journal.frontiersin.org/article\/10.3389\/fnbot.2017.00001\/full“,”内容类型“:”未指定“,”内容版本“:”vor“,”预期应用程序“:”相似性检查“}],”存放“:{”日期部分“:[[2023,8,21]],”日期时间“:”2023-08-21T22:13:54Z“,”时间戳“:1692656034000},”分数“:1,”资源“:{”主要“:{”URL“:”http://\/journal.frontiersin.org\/article\/10.3389\/fnbot.2017.0001\/full“}},”subtitle“:[],”shorttitle“:[],”issued“:{”date-parts“:[[2017,1,23]]},“references-count”:25,“URL”:“http://\/dx.doi.org\/10.338”n类型“:[{”值“:”1662-5218“,”类型“:”电子“}],”主题“:[],”发布“:{”日期部分“:[[2017,1,23]}}}