{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期-部分”：[[2024,7,15]]，“日期-时间”：“2024-07-15T00:23:46Z”，“时间戳”：1721003026539}，“参考-计数”：25，“出版商”：“Frontiers Media SA”，“资助者”：[{“DOI”：“10.13039\/5010001691”，“名称”：“日本科学促进会”，“DOI-aser泰德比”：“publisher”，“adward”：[“16K12504”]，“id”：[{“id”:“10.13039\/501100001691”，“id-type”：“DOI”，“asserted-by”：“publicher”}]}]，“content-domain”：{“domain”:[“frontiersin.org”]，”crossmark-restriction“：true}，”short-container-title“：[”Front.Neurobot.“]，”DOI“：”10.3389\/fnbot.2017.0001“，”type“：”journal-article“，“创建”：{“日期-部分”：[[2017,1,23]]，“日期-时间”：“2017-01-23T14:18:49Z”，“timestamp”：1485181129000}，“update-policy”：“http://\/dx.doi.org\/10.3389\/crossmark-policy”，“源”：“Crossref”，“is-referenced-by-count”：5，“title”：[“Adaptive Baseline Enhances EM-Based policy Search:Validation in a View-Based Positioning Task of a Smartphone Balancer”]，“前缀”：“10.3389”，“卷”：“11”，“作者”：[{“given”：“洁心”，“家庭”：“王”，“序列”：“第一”，“从属关系”：[]}，{“给定”：“Eiji”，“家族”：“Uchibe”，“sequence”：“additional”，“affiliation”：[]}，}“给定的”：“Kenji”、“family”：“Doya”，”sequence“：”additional“，”affiliance“：[]]]，“成员”：“1965”，“在线发布”：{“日期段”：[2017，1,23]]}、“引用”：[{“key”：“B1”，“首页”：“154”，“文章标题”：“\u201c加权最大似然策略搜索方法的正则协方差估计，\u201d”，“author”：“Abdolmaleki”，“year”：“2015”}，{“key”：“B2”，“doi-asserted-by”：“publisher”，”first page“：”1“，”doi“：”10.1561 \/230000021“，“article-title”：“机器人策略搜索调查”，“volume”：”2“author:”Deisenroth“，”year“：”2013“，”journal-title“：“Found.Trends Rob.”}，{“key”：“B3”，“doi-asserted-by”：“publisher”，《first page》：“219”，“doi”：“10.1162\/089976600300015961”，“article-title”：“在连续时间和空间中的强化学习”，“volume”：”12“，“author”：“Doya”，”year“2000”，“journal-title“：”Neural Compute“}，}“key:”“B4”，“doi-asserted-by”“：”publisher“first page:”“149”，“doi”：“10.1177\/105971230501300206”，“article-title”：“网络啮齿动物项目：探索自我保存和自我生产的适应机制”，“卷”：“13”，“作者”：“Doya”，年：“2005”，“新闻标题”：“Adapt.Behav.”}，{“键”：“B5”，“doi-asserted-by”：“出版商”，“首页”：“2798”，“doi”：“10.1162\/NECO_a_00199”，“文章-标题”：“奖励加权回归，样本重用，用于强化学习中的直接政策搜索”，“卷”：“23”，“作者”：“Hachiya”，“年份”：“2011年”，“期刊标题”：“神经计算”}，{“键”：“B6”，“doi-asserted-by”：“出版商”，“首页”：“159”，”doi“：”10.1162\/106365601750190398“，”文章标题“：“进化策略中的完全失范自适应”，“卷”：“9”，“作者”：“Hansen”，“年份”：“2001”，“日志标题”：“Evol.Comput.”}，{“key”：“B7”，“doi-asserted-by”：“publisher”，”first page“：”171“，”doi“：”10.1007\/s10994-010-5223-6“，”article-title“：”机器人中运动基元的政策搜索“，”卷“：”84“，”作者“：”Kober“，年”：“2011”，“journal-title”：“Mach.Learn.”}，{“key”：“B8”，“doi-asserted-by”：“crossref”，“article-title“：”\u201cData-efficient generalization of robot skills with contextual policy search，“u201d”，“author”：“Kupcsik”，“year”：“2013”，“doi”：“10.1609\/aaai.v27i1.8546”}\u201d“，“author”：“Mannor”，“year”：“2003”}，{“key”：“B10”，“doi-asserted-by”：“crossref”，“article-title”：“\u201c相对熵策略搜索，\u201d”，“auth”：“Peters”，“年份”：“2010”，“doi”：“10.1609\/aaai.v24i1.7727”}：“\u201c通过操作空间控制的奖励加权回归进行强化学习，\u201d”，“author”：“Peters”，“year”：“2007”，“DOI”：“10.1145\/1273496.1273590”｝，｛“key”：“B12”，“DOI asserted by”：“crossref”，“article title”：“\u201c评估cart-pole基准上的政策梯度方法和变体，\u201d”，“author”：“Riedmiller”，“year”：“2007”，“DOI”：“10.1109\/ADPRL.2007.368196”}，{“key”：“B13”，“DOI-asserted-by”：“publisher”，“first-pages”：“551”，“DI:”10.1016\/j.neunet.2009.12.004“，“article-title”：“Parameter-revelosing policy gradients”，“volume”:“21”，“author”：“Sehnke”，“year”：“2010”，“journal-title“：”Neural Networks“}”，{”key“：“B14”，“文章标题“：“\u201c确定性策略梯度算法，\u201d”，“author”：“银牌”，“年份”：“2014”}，{“key”：“B15”，“首页”：“281”，“article-title”：“带协方差矩阵自适应的\u201cPath积分策略改进，\u201 d”，”author“：“Stulp”，“year”：“2012”}：“强化学习的广义路径积分控制方法”，“volume”：“11”，“author”：“Theodorou”，“year”：“2010”，“journal-title”：“J.Mach.Learn.Res.”}，{“key”：”B17“，”volume-title“：”Android Phone Robot的站立和平衡行为“，”author“：”Wang“，”year“：”2013：“\u201c通过安卓手机机器人控制两轮平衡和站立行为，\u201d”，“author”：“Wang”，“year”：“2014”}，{“key”：“B19”，“doi-asserted-by”：“publisher”，“first-page”：“125”，“doi”：“10.1007\/s10015-015-0200-7”，“article-title”：“基于EM的政策超参数探索：应用于两轮智能手机机器人的站立和平衡”，“卷”：“21”，“作者”：“王”，“年份”：“2016年”，“新闻标题”：“Artif.Life Rob.”}，{“关键”：“B20”，“首页”：“949”，“文章标题”：《自然进化战略》，“卷“：”15“作者”，“Wierstra”，“年度”：“2014年”，《新闻标题》：“J。机器。学习。研究“}，{”key“：”B21“，”doi-asserted-by“：”crossref“，”article-title“：”\u201cFitness expectation maximization，“u201d”，“author”：“Wierstra”，“year”：“2008”，“doi”：“10.1007\/978-3-540-87700-4_34”}，“key”：“B22”，“doi-assert-by”：“publisher”，”first page“：“229”，“doi”：”10.1023\/A:10226721406“，”article le-title“：”连接主义强化学习的简单统计梯度允许算法”，“卷”：“8”，“作者”：“威廉姆斯”，“年份”：“1992年”，“新闻标题”：“马赫。学习。“}，{”key“：”B23“，”article-title“：”\u201c智能手机机器人平台的开发，\u201d“，”author“：”Yoshida“，”year“：”2012“}”，{“key”：“B24”，”doi-asserted-by“：”publisher“，”first page“：年份“：”2012“，”journal-title“：”Neural Networks“}，{”key“：”B25“，”doi-asserted-by“：”publisher“，”first page“：“1512”，”doi“：”10.1162\/NECO_a_00452“，”article-title”：“利用基于参数的探索在策略梯度中高效重复使用样本”，“volume”：“25”，“author”：“Zhao”，“year”：“2013”，“journal-title”:“Neural Comput.”}]，“container-title（容器）”：[“Neurorobotics的前沿”]，“原标题“：[]，”链接“：[｛”URL“：”http:\/\/journal.frontiersin.org/article\/10.3389\/fnbot.2017.00001\/full“，”内容类型“：”未指定“，”内容版本“：”vor“，”预期应用程序“：”相似性检查“｝]，”存放“：｛”日期部分“：[[2023,8,21]]，”日期时间“：”2023-08-21T22:13:54Z“，”时间戳“：1692656034000｝，”分数“：1，”资源“：｛”主要“：｛”URL“：”http://\/journal.frontiersin.org\/article\/10.3389\/fnbot.2017.0001\/full“}}，”subtitle“：[]，”shorttitle“：[]，”issued“：{”date-parts“：[[2017,1,23]]}，“references-count”：25，“URL”：“http://\/dx.doi.org\/10.338”n类型“：[{”值“：”1662-5218“，”类型“：”电子“}]，”主题“：[]，”发布“：{”日期部分“：[[2017,1,23]}}}