｛“状态”：“正常”，“消息类型”：“工作”，“消息版本”：“1.0.0”，“消息”：｛“索引”：｛“日期部分”：[[2024,6,25]，“日期时间”：“2024-06-25T06:37:26Z”，“时间戳”：171929746495｝，“引用计数”：96，“发布者”：“爱思唯尔BV”，“许可证”：[｛“开始”：｛“日期部分”：[[2022,8,1]，“日期时间”：“2022-08-0100:00:00Z”，“时间戳”：1659312000000｝，“内容版本“：“tdm”，“delay-in-days”：0，“URL”：“https:\/\/www.elsevier.com/tdm\/userlicense\/1.0\/”}，{“start”：{“date-parts”：[2022,5,10]]，“date-time”：“2022-05-10T00:00:00Z”，“timestamp”：16521408000000}，“content-version”：“vor”，“delay-in-days”：“0，”URL“http://creativecommons.org\/license\/by-nc-nd\/4.0\/“}]，“内容域”：{“域”：[“elsevier.com”，“sciencedirect.com”]，“crossmark-restriction”：true}，“short-container-title”：[“Neural Networks”]，”published-print“：{“date-parts”：[[2022,8]]}，”DOI“：”10.1016\/j.neunet.2022.03.037“，”type“：”journal-article“，”created“：{“date-ports”：[2022,4,19]]，”date-time“：”2022-04-19T06:01:37Z“，”timestamp“：1650348097000}”，“page：“267-275”，“更新策略”：“http://\/dx.doi.org\/10.1016\/elsevier_cm_policy”，“source”：“Crossref”、“is-referenced-by-count”：147，“title”：[“深度学习、强化学习和世界模型”]，“前缀”：“10.1016”，“卷”：“152”，《作者》：[{“ORCID”：”http://\/ORCID.org\/00000-0002-2106-8907“，“authenticated-ORCID”：false，“给定”：“Yutaka”，“family”：“Matsuo”，“sequence”：“first”，“affiliation”：[]}，{“given”：“Yann”，“family”：“LeCun”，“sequence”：“additional”，“affaliance”：[]}，}“ORCID”：”http://\/ORCID.org\/00000-0001-5560-3341“，”authenticated-ORCID“：false，”given“：”Maneesh“，”family“：”Sahani“，”sequence“：”additional“affiliation”：[]}，{“given”：“David”，“family”：“Silver”，“sequence”：“additional”，“affiliation”：[]}，{“ORCID”：“http://\/ORCID.org\/00000-0001-6658-6743”，“authenticated-ORCID”：false，“given”：”Masashi“，”family“：”Sugiyama“，”sequence“：”additional，“family”：“Uchibe”，“sequence”：“additional”，“affiliation”：[]}，{“given”：“Jun”，“family”：“Morimoto”，“sequence”：“addressive”，“filiation“：[]2]，“member”：“78”，“reference”：[{“key”：”10.1016\/j.neunet.2023.037_51“，”unstructured“：”Abdolmaleki，\u00a0A.，Springenberg，\u0a0J.T.，Tassa，\u000a0Y.，Munos，\u100a0R.，Heess，\u 00a0N.和Riedmiller，\u00a0M.（2018）。最大化后验策略优化。程序中。第六届学习表征国际会议。“}，{”key“：”10.1016\/j.neunet.2022.03.037_b2“，”series-title“：”用机器人手解决Rubik\u2019s立方体“，”author“：”Akkaya“，“year”：“2019”}，“issue”：“2”，“key”：“10.1016\\j.neunet.202.037_53”，“doi-asserted-by”：“crossref”，“first page”：”275“，”doi“：”1016\/S0004-3702（99）00026-0““，”文章标题“：”通过基于视觉的强化学习和开发实现移动机器人在动态变化的现实世界中的合作行为获取”，“卷”：“110”，“作者”：“Asada”，“年份”：“1999”，“期刊标题”：“人工智能”}，{“关键”：“10.1016\/j.neunet.2022.037_b4”，“doi-asserted-by”：“crossref”，”非结构化“巴雷托，\u00a0A。，侯，\u00a0S。，博尔萨，\u00a0D。，银色，\u00a0D.&Precup，\u00a0D。(2020). 基于广义策略更新的快速强化学习。《美国国家科学院院刊》。“，”DOI“：”10.1073\/pnas.1907370117“}，{“key”：“10.1016\/j.neunet.2022.0307_b5”，“DOI-asserted-by”：“crossref”，“unstructured”：“Bouffard，\u00a0P.，Aswani，\u000a0A.，&Tomlin，\u0010.（2012）。基于学习的四电机模型预测控制：车载实现和实验结果。2012年IEEE机器人与自动化国际会议（第279\u2013284页）。http://\/dx.doi.org \/10.109 \/ICRA.2012.6225035.“，”doi“：”10.1109 \/ICRA.2012.62250035“}，{“问题”：“4”，“密钥”：“10.1016 \/j.neunet.2022.037_b6”，“doi-asserted-by”：“crossref”，“首页”：“687”，“doi”：“10116 \/j.neuron.200.02.028”，“文章标题”：“人类观察性学习过程中选择模仿和目标模仿之间仲裁的神经计算描述”，“卷”：“106”，“作者”：“Charpentier”，“年份”：“2020”，“期刊标题”：“神经元”}，{“键”：“10.1016\/j.neut.2022.03.037_b7”，“系列标题”：“视觉表征对比学习的简单框架”，“作者”：“Chen”年份：“2020”}，{“key”：“10.1016\/j.neunet.2022.03.037_b8”，“doi-asserted-by”：“crossref”，“doi”：“10.7554\/eLife.29718”，“article-title”：“人脑反向强化学习的神经计算”，“volume”：”6“，“author”：“Collette”，“year”：“2017”，“journal-title“：”eLife“}3.037_b9“，”article-title“：”控制角色动画的线性Bellman组合“，”volume“：”28“，”author“：”Da\u00a0Silva“，”year“：”2009“，”journal-title”：“ACM图形事务”}，{“issue”：“4”，“key”：“10.1016\/j.neunet.202.03.037_b10”，“doi-asserted-by”：“crossref”，“first-pages”：“613”，“doi”：“101162\/neco.1993.5.4.613”，“article-title”改进时间差异学习的泛化：后继表征“，”卷“：”5“，”作者“：”大雁“，”年份“：”1993“，”期刊标题“：”神经计算“}，{“key”：“10.1016\/j.neunet.2022.0307_b11”，“series-title”：“神经信息处理系统的进展，第5卷”，“article-title”：”封建强化学习“，”作家“：”Dayan“，”year“：”1993“}，{“issue”：“4”，“key”：“10.1016\/j.neunet.2022.0307_b12”，“doi-asserted-by”：“crossref”，“first page”：”480“，“doi”：“101162\/neco.1989.1.4.480”，”article-title“：”新皮质的典型微电路“，”volume“：”1“，”author“：”Douglass“，”“year”：“1989”，“journal-title”：“Neural Computation”}，}“ission”：“2“，”键“：”10.1016\/j.neunet.2022.0307_b13“，”doi-asserted-by“：”crossref“，”first page“：”101“，”doi“：”10.1177\/1059712310397633“，”article-title“：”达尔文主义生存学习能力的体现进化“，”volume“：“19”，”author“：”Elfwing“，”year“：”2011“，”journal-title”：“适应性行为”}，{“key”：“10.1016//j.neunet.2022.037_b14”，“series-title“：”u举办的时装秀，“author”：“EMarie”，“year”：“2019”}，{“issue”：“2”，“key”：“10.1016\/j.neunet.2022.03737_b15”，“doi-asserted-by”：“crossref”，“first page”：”213“，“doi”：“101177\/0278364907084980”，“article-title”：“使用策略梯度方法学习基于CPG的两足运动：应用于仿人机器人”，“volume”：第27“authors”：“Endo”，“年份”：“2008年“，“journal-title”：《国际机器人研究杂志》}，{“key”：“10.1016\/j.neunet.2022.03037_b16”，“unstructured”：“Espeholt，\u00a0L.，Soyer，\u000a0H.，Munos，\u00 a0R.，Simonyan，\u 00a0K.，Mnih，\u 0a0V.，Ward，\u 100a0T.，et al.（2018）IMPALA：具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL。第35届机器学习国际会议论文集，PMLR 80（第1407\u20131416页）。“}，{”issue“：”1“，”key“：”10.1016\/j.neunet.2022.03.037_b17“，”doi-asserted-by“：”crossref“，”first page“：“1”，“doi”：“10.1093\/cercor\/1.1.1”，”article-title“：”灵长类大脑皮层的分布式层次处理“，”volume“：1”，‘author’：”Felleman“，”year“1991”，“journal-title”：“Cereb cortex”}，”{“key”：“101016\/j.neunet.2022.03.037_b18“，”非结构化”：“Finn，\u00a0C。，Abbeel、\u00a0P.和莱文，\u00a0S。(2017). 用于深度网络快速适应的模型认知元学习。第34届机器学习国际会议论文集，PMLR，第70卷（第1126\u20131135页）。“｝，｛”key“：”10.1016\/j.neuet.202.03.037_b19“，”doi asserted by“：”crossref“，”nonstructured“：”Finn，\u00a0C.，Yu，\u00a0X.，Duan，\u00a0Y.，Darrell，\u00a0T.，Levine，\u00a0S.，&Abbeel，\u00a0P.（2016）。用于Visuomotor学习的深度空间自动编码器。在2016年IEEE机器人与自动化国际会议论文集，5月16日至21日，斯德哥尔摩（pp.512\u2013519）.“，”DOI“：”10.1109\/ICRA.2016.7487173“}，{“issue”：“2”，“key”：“10.1016\/j.neunet.2022.0373_b20”，“DOI-asserted-by”：“crossref”，“first page”：”1051“，“DOI”：“101109\/LRA.2021.3051562”，”article-title“：”基于估计用户2019s运动目标的线性bellman组合制定辅助控制策略“，”volume“：”6“，”author“：”Fur ukawa“，”年份“：”2021“，”journal-title“：”IEEE Robotics and Automation Letters“}，{“key”：“10.1016\/j.neunet.2022.0307_b21”，“series-title”：“认知神经科学：大脑的生物学”，“author”：“Gazzaniga”，“year”：“2008”}，“key“：”10.1016\/j.newnet.203.037_b22“，”doi-asserted-by“：”crossref“，”first page“：“452”，“doi”：“101038\/nature14541”，“文章标题”：“概率机器学习与人工智能“，”卷“：”521“，”作者“：”Ghahramani“，”年份“：”2015“，”新闻标题“：”Nature“}，{“key”：“10.1016\/j.neunet.2022.03737_b23”，“series-title”：“World models”，“author”：“Ha”，“year”：“2018”}，“key“：”10.1016//j.neunet.202.03.037_b24“，”doi-asserted-by“：”crossref“，”非结构化“：”哈诺哈，\u00a0T。，乒乓，\u00a0V。，周，\u00a0A。，达拉，\u00a0M。，Abbeel、\u00a0P.和莱文，\u00a0S。(2018). 机器人操作的可组合深度强化学习。程序中。IEEE机器人与自动化国际会议。“，”DOI“：“10.1109\/ICRA.2018.8460756”}，{“key”：“10.1016\/j.neunet.2022.03737_b25”，“unstructured”：“Haarnoja，\u00a0T.，Tang，\u100a0H.，&Levine，\u000a0S.（2017）。基于深层能源的政策强化学习。第34届国际机器学习会议记录（第1352\u20131361页）。”}26英寸非结构化“：”Haarnoja，\u00a0T。，周，\u00a0A。，Abbeel、\u00a0P.和莱文，\u00a0S。(2018). 软行动者批判：非政策最大熵深度强化学习与随机行动者。程序中。第35届国际机器学习会议（第1861页\u20131870页）。“}，{”key“：”10.1016\/j.neunet.2022.03.037_b27“，”series-title“：”Soft actor-critic algorithms and applications“，”author“：”Haarnoja“，”year“：”2018“}”，{“key”：“10.1016\\j.neunet.2022.03.77_b28”，“unstructured”：“Hafner，\u00a0D.，Lillicrap，\u00 a0T.P.，Norouzi，\u000a0M.，&Ba，\u 00a0J.（2021）使用离散世界模型掌握Atari。在学习代表国际会议上。“｝，｛”key“：”10.1016\/j.neuet.202.03.037_b29“，”非结构化“：”Han，\u00a0B.Yao，\u00a0Q.，Yu，\u00a0X.，Niu，\u00a0G.Xu，\u00a0M.Hu，\u00a0W.et al.（2018）。联合教学：用极噪声标签进行稳健训练深度神经网络。《神经信息处理系统进展》，第31卷（第8527\u20138537页）。“｝，｛”key“：”10.1016\/j.neunet.2022.03.037_b30“，“series-title”：“无监督视觉表征学习的动量对比”，“author”：“He”，“year”：“2019”}，{“key”：“10.1016\\j.neunet.2022.03.037_b31”，“series-title”：”丰富环境中运动行为的出现“，”author“：”Heess“，”year“：”2017“}，“key“：”10.1016//j.neunet.202.037_b32“，”series-title“：“密集交通中驾驶的不确定性规则化模型预测政策学习”，“author”：“Henaff”，“year”：“2019”}，{“key”：“10.1016\/j.neunet.2022.037_b33”，“unstructured”：“Ishida，\u00a0T.，Yamane，\u000a0I.，Sakai，\u0a0T..，Niu，\u100a0G.，&Sugiyama，\u00 a0M.（2020）。在实现零培训误差后，我们是否需要零培训损失？。第37届机器学习国际会议论文集（第4604\u20134614页）。在线，7月13日至18日。“}，{”issue“：”1“，”key“：”10.1016\/j.neunet.2022.03737_b34“，”doi-asserted-by“：”crossref“，”first page“：“119”，”doi“：”101109\/LRA.2019.2947001“，”article-title“：”类人机器人多功能和敏捷行为的全身最优控制“，”volume“：IEEE Robotics and Automation Letters“}，{”key“：”10.1016\/j.neunet.2022.03037_b35“，”unstructured“：”Jeon，\u00a0W.，Su，\u0010.-Y.，Barde，\u000a0P.，Doan，\u005a0T.，Nowrouzezahrai，\u 00a0D.，&Pineau，\un00a0J.（2021）。正则化反向强化学习。第九届学习表征国际会议论文集。“}”，{“key”：“10.1016\/j.neunet.2022.03.037_b36“，”非结构化“：”Karl，\u00a0M。，土壤，\u00a0M。，拜耳，\u00a0J.，&Smagt，\u00a0P。(2017). 深度变分贝叶斯滤波器：从原始数据中对状态空间模型的无监督学习。在学习代表国际会议上。“}，{”key“：”10.1016\/j.neunet.2022.03.037_b37“，”unstructured“：”Kirsch，\u00a0L.，Steenkiste，\u000a0S.V.，&Schmidhuber，\u100a0J.（2020）。使用学习目标改进元强化学习中的泛化。在学习表征国际会议上。“}”，{基里奥，\u00a0R。，du\u00a0Plessis，\u00a 0M。C.、Niu、\u00a0G.&杉山，\u00a0M。(2017). 使用非负风险估计器的正向无标记学习。《神经信息处理系统进展》，第30卷（第1674\u20131684页）。“}，{”key“：”10.1016\/j.neunet.2022.03.037_b39“，”unstructured“：”Kozuno，\u00a0T.E.\u00a 0Uchibe，&Doya，\u00 a0K.（2019）.强化学习中Softmax和Gap-Increased算子效率和稳健性的理论分析.第22届国际人工智能与统计会议论文集（第2995\u20133003页）.“}”，{“key“：”10.1016\/j.neunet.2022.0307_b40“，”doi-asserted-by“：”crossref“，”首页“：”45“，”doi“：”101016\/j.cobeha.2019.04.005“，”article-title“：”Towards learning-to-learn“，”volume“：“29”，“author”：“Lansdell”，“year”：“2019”，“journal-title”：“Current Opinion in Behavioral Sciences”}，{“key”：“10.1016//j.neunet.2022.03.037_b41”，“序列标签”：“基于能量的学习教程。预测结构化数据“，”author“：”LeCun“，”year“：”2006“}，{”issue“：”4\u20135“，”key“：”10.1016\/j.neunet.2022.0337_b42“，”doi-asserted-by“：”crossref“，”first page“：“421”，”doi“：”101177\/0278364917710318“，”article-title“：”通过深度学习和大规模数据收集，学习机器人抓取的手眼协调”，“volume”：“37”，“author”：“”Levine“，”year“：“2018年”，”journal-title“：“国际机器人研究杂志”}，{“key”：“10.1016\/j.neunet.2022.03737_b43”，“unstructured”：“Lillicrap，\u00a0T.P.，Hunt，\u000a0J.j.，Pritzel，\u100a0A.，Heess，\u200a0N.，Erez，\u0a0T.，Tassa，\u0010Y.，et al.（2016）.通过深度强化学习进行持续控制。程序中。第四届学习表征国际会议。“}，{”key“：”10.1016\/j.neunet.2022.03.037_b44“，”unstructured“：”Lin，\u00a0L.-j.（1991）.使用强化学习和教学为机器人编程.第九届全国人工智能会议（AAAI）论文集（第781\u2013786页）.“}卢，\u00a0N。，牛，\u00a0G。，梅农，\u00a0A。K.和Sugiyama，\u00a0M。(2019). 关于仅从未标记数据训练任何二进制分类器的最小监督。第七届学习表征国际会议论文集。“}，{”issue“：”10“，”key“：”10.1016\/j.neunet.2022.03037_b46“，”doi-asserted-by“：”crossref“，”first page“：“2187”，”doi“：”101587\/transfun.E98.A.2187“，”article-title“：”解决新任务的最佳策略的动态线性bellman组合“，”volume“：IEICE电子、通信和计算机科学基础汇刊“}，{“key”：“10.1016\/j.neunet.2022.03.037_b47”，“series-title”：“通过基于模型的离线优化进行部署高效强化学习”，“author”：“Matsushima”，“year”：“2020”}，}“issue”：“1”，“key“10.1016 \/j.neunet.2023.037_b48”，“doi-asserted-by”：“crossref“，”first page“：”5489“，”DOI“：”10.1038\/s41467-019-13239-6“，”article-title“：”哺乳动物和机器的分级运动控制“，”volume“：“10”，”author“：”Merel“，”year“：”2019“，”journal-title”：“Nature Communications”}，{“key”：“10.1016\/j.neunet.202.03.037_b49”，”series-title“：“学习表征国际会议”，“article-title“：”用于类人控制的神经概率运动原语“，”author“：”Merel“，”year“：”2019“}，{”key“：”10.1016\/j.neunet.2022.03737_b50“，”series-title“：“借口变量表征的自我监督学习”，”auther“：”Misra“，”year“：“2019”}，”{“key”：“10.1016\/j.newnet.202.037_b51”，“unstructured”：“Mitchell，\u00a0M.（2019）人工智能：人类思维指南。在Farrar straus&giroux。“｝，｛”issue“：”7540“，”key“：”10.1016\/j.neut.2022.03.037_b52“，”doi断言“：”crossref“，”首页“：”529“，”doi“：”10.1038\/nature14236“，”文章标题“：”通过深度强化学习进行人类层面的控制“，”卷“：”518“，”作者“：”Mnih“，”年份“：”2015“，”期刊标题“：”Nature“｝，｛”issue“：”9“，”key“：”10.1016\/j.neut.2022.0 3.037_b53“，”doi-asserted-by“：”crossref“，”first page“：”680“，”doi“：”10.1038\/s41562-017-0180-8“，“article-title”：“人类强化学习中的后继表征”，“volume”：“1”，“author”：“Momennejad”，“year”：“2017”，“journal-title“：”Nature human Behaviour“}，{“issue”：“2”，“key”：”10.1016\/j.neunet.202.03.037_b54“，”doi-assert-by“，“首页”：“131“，”DOI“：”10.1007\/s10514-009-9133-z“，”article-title“：”学习biped运动的近似poincare贴图的非参数表示“，”volume“：”27“，”author“：”Morimoto“，”year“：”2009“，”journal-title”：“Autonomous Robots”}，{“issue”：“1”，“key”：“10.1016\/j.neunet.2022.037_555”，“DOI-asserted-by”：“crossref”，“DOI”：“101016\/S092\ 1-8890（01）00113-0“，”article-title“：“真实机器人使用分层强化学习获取站立行为”，“volume”：“36”，“author”：“Morimoto”，“year”：“2001”，“journal-title”：“Robotics and Autonomous Systems”}，{“issue”：“12”，“key”：”10.1016\/j.neunet.202.03.037_b56“，”doi-asserted-by“：”crossref“，“doi”：“10.1371\/journal.pbio.3001028”，“article-title“：“在社会强化学习的背景下，他人的行为充当伪读来驱动模仿”，“volume”：“18”，“author”：“Najar”，“year”：“2020”，“journal-title”：“PLoS Biology”}，{“key”：”10.1016\/j.neunet.2022.037_b57“，”doi-asserted-by“：”crossref“，”unstructured“：”哦，\u00a0J。，赫塞尔，\u00a0M。，Czarnecki，\u00a0W。M.、Xu、\u00a0Z.、。，范哈塞尔特，\000a0H。P.、Singh、\u00a0S.、。，等（2020年）。发现强化学习算法。H.\u00a0Larochelle，M.\u00a 0Ranzato，R.\u00a-0Hadsell，M.F.\u00a/0Balcan，H.\u00 a0Lin（编辑），《神经信息处理系统的进展》，第33卷（第1060\u20131070页）。“，”DOI“：”10.1609\/aai.v33i01.33013796“｝，｛”key“：”10.1016\/j.neuet.202.03.037_b58“，”DOI断言“：”crossref“，”首页“：”1“，”DOI“：”10.1561\/2300000053“，”文章标题“：”模仿学习的算法视角“，”卷“：”7“，”作者“：”Osa“，”年份“：”2018“，”期刊标题“：”机器人学的基础与趋势“｝，｛”问题“：“4”，“键”：“10.1016\/j.neunet.2022.03737_b59“，”doi-asserted-by“：”crossref“，”first page“：”682“，”doi“：”10.1016\\j.neunet.2008.02.003“，”article-title“：”通过策略梯度强化运动技能学习“，”volume“：“21”，”author“：”Peters“，”year“2008”，”journal-title”：“Neural Networks”}，{“key”：“10.1016//j.neunet.202.037_b60”，“非结构化”：“”罗斯，\u00a0S。，戈登，\u00a0G。J.和Bagnell，\u00a0J。A.（2011年）。将模拟学习和结构化预测简化为无障碍在线学习。第十四届人工智能和统计国际会议论文集。“}，{”key“：”10.1016\/j.neunet.2022.03037_b61“，”series-title“：人工智能：现代方法”，“author”：“Russell”，“year”：“2020”}，“issue”：“10”，“key”：“10.1016\\j.neunet.2022.03077_b62”，“doi-asserted-by”：“crossref”，“first page”：”2255“，”doi“：”101162\/089976603232362356“，”“article-title“：”双分布人口编码：不确定性和多重性的同时表示”，“数量”：“15”，“作者”：“萨哈尼”，“年份”：“2003”，“期刊标题”：“神经计算”}，{“关键”：“10.1016\/j.neunet.2022.0307_b63”，“非结构化”：“酒井，\u00a0T.，du\u00a 0Plessis，\u000a0M.C.，牛，\u100a0G.，&杉山学，\u0010M.（2017）.基于阳性和未标记数据分类的半监督分类。第34届机器学习国际会议论文集（第6\u201312页）。“}，{”issue“：”6“，”key“：”10.1016\/j.neunet.2022.03037_b64“，”doi-asserted-by“：”crossref“，”first page“：“233”，”doi“：”101016\/S1364-6613（99）01327-3“，”article-title“：”模仿是学习类人机器人的途径吗？“7839”，“键”：“10.1016\/j.neunet.2022.0307_b65“，”doi-asserted-by“：”crossref“，”first page“：”604“，”doi“：”10.1038\/s41586-020-03051-4“，“article-title”：“通过学习模型规划掌握atari、围棋、国际象棋和shogi”，“volume”：“588”，“author”：“Schrittwieser”，”year“：”2020“，”journal-title“：”Nature“}，{“key”：”10.1016//j.neunet.2022.02 3.037_b66“，”非结构化“：”舒尔曼，\u00a0J。，莱文，\u00a0S。，阿比埃尔，\u00a0P。，乔丹，\u00a0M.，&莫里茨，\u00a0P。(2015). 信任区域策略优化。程序中。第32届机器学习国际会议（第1889页\u20131897页）。“}，{”issue“：”7587“，”key“：”10.1016\/j.neunet.2022.0307_b67“，”doi-asserted-by“：”crossref“，”first-page:“484”，“doi”：“10.1038\/nature16961”，“article-title”：“掌握深度神经网络和树搜索的游戏”，“volume”：“529”，“author”：“Silver”，“year”：“2016”，“journal-title“：”Nature“}”，{“issue”：“6419”，“key”“：”10.1016\/j.neunet.202.03.037_b68“，”doi asserted by“：”crossref“，”首页“：”1140“，”doi“：”10.1126\/science.aar6404“，”文章标题“：”一种掌握国际象棋、将棋和自我博弈的通用强化学习算法“，”卷“：”362“，”作者“：”Silver“，”年份“：”2018“，”期刊标题“：”科学“}，{”期“：”7676“，”键“：”10.1016\/j.neunet.2022.0307_b69“，”doi-asserted-by“：”crossref“，”first page“：”354“，”doi“：”10.1038\/nature24270“，”article-title“：”掌握没有人类知识的围棋游戏“，”volume“：“550”，”author“：”Silver“，”year“：”2017“，”journal-title”：“Nature”}，{“key”：“10.1016\\j.neunet.202.037_b70”，“doi-assert-by”：“Crosref”“，”doi“：”10.1016\/j.artint.2021.103535“，”article-title“：“奖励足够了”，“卷”：“299”，“作者”：“银牌”，“年份”：“2021”，“日志标题”：“人工智能”}，{“问题”：“11”，“密钥”：“10.1016\/j.neunet.2022.037_b71”，“doi-asserted-by”：“crossref”，“首页”：“1643”，“doi”：“101038\/nn.4650”，“article-title”：“海马体作为预测图”，“体积”：”20“，”author“：”Stachenfeld“，”year“：”2017“，”journal-title“：”Nature Neuroscience“}，{”key“：”10.1016\/j.neunet.2022.03737_b72“，”doi-asserted-by“：”crossref“，“unstructured”：“Sugimoto，\u00a0N.，&Morimoto，\u0a0J.（2013）基于轨迹模型的强化学习：应用于具有闭合链约束的双手类人运动学习。IEEE-RAS类人机器人国际会议（第429\u2013434页）。“，”DOI“：”10.1109\/HUMANOIDS.2013.7030010“}，{“issue”：“1”，“key”：“10.1016\/j.neunet.2022.03037_b73”，“DOI-asserted-by”：“crossref”，“first page”：”96“，“DOI”：“101109\/MRA.2015.2511681”，“article-title”：“试验与错误：使用以前的经验作为仿人运动学习的仿真模型”，“volume”：第23卷，“author”：“Sugimoto”，“year”：“2016”，“journal-title“：”IEEE Robotics&Automation Magazine“}，{“key”：“10.1016\/j.neunet.2022.0307_b74”，“series-title”：“强化学习：简介”，“作者”：“Sutton”，“年份”：“2018”}，}“问题”：“1\u20132”，“密钥”：“101016\/j.neunet.203.037_b75”，“doi-asserted-by”：“交叉引用”，“首页”：“181”，“doi”：“10.0016\/S0004-370”2（99）00052-1“，”article-title“：“在MDP和半MDP之间：强化学习中的时间抽象框架”，“卷”：“112”，“作者”：“Sutton”，“年份”：“1999”，“期刊标题”：“人工智能”}，{“关键”：“10.1016\/j.neunet.2022.037_b76”，“系列-时间”：“深度生成模型的联合多模态学习”，“作家”：“铃木”，“年度”：“2016”}、{key“：”10.1016\/j.neunet.2022.03.037_b77“，”非结构化“：”Tangkaratt，\u00a0V。，Charoenphakdee，\u00a0N.，&杉山，\000a0M。(2021). 从嘈杂的演示中学习有力的模仿。第24届国际人工智能与统计会议论文集（第298\u2013306页）。在线，4月13日至15日。“}，{”key“：”10.1016\/j.neunet.2022.0307_b78“，”doi-asserted-by“：”crossref“，”unstructured“：”Tassa，\u00a0Y.，Erez，\u000a0T.，&Todorov，\u0a0E.（2012）.通过在线轨迹优化对复杂行为进行综合和稳定。2012年IEEE\/RSJ智能机器人和系统国际会议，第2012卷（第4906\u20134913页）。http://\/dx.doi.org\/10.1109\/IROS.2012.6386025.“，”doi“：”10.1109\/IROS.2012.63861025“}，{“key”：“10.1016\/j.neunet.2022.03.037_b79”，“doi-asserted-by”：“crossref”，“doi”：“10.3389\/fnbot.2018.0071”，“article-title”：“气动肌肉机器人的人-机控制和任务学习”，“author”：“Teramae”，“年份”：“2018年”journal-title“：”神经机器人学的前沿“}，{“issue”：“28”，“key”：“10.1016\/j.neunet.2022.03.037_b80”，“doi-asserted-by”：“crossref”，“first page”：”11478“，“doi”：“101073\/pnas.0710743106”，“article-title”：“优化操作的有效计算”，“volume”:“106”，”author“：”Todorov“，”“year”：“2009”，“journal-title”美国国家科学院院刊“}，{“key”：“10.1016\/j.neunet.2022.0307_b81”，“首页”：“1856”，“文章标题”：“最优控制律的组成”，“卷”：“22”，“作者”：“托多罗夫”，“年份”：“2009”，“期刊标题”：10.1016\/j.neunet.2022.0307_b82“，”doi-asserted-by“：”crossref“，”first page“：”72“，”doi“：”10.1016\/j.robot.2018.11.004“，“article-title”：“深度强化学习与平滑策略更新：机器人布料操作的应用”，“volume”：“112”，“author”：“Tsurumine”，“year”：“2019”，“journal-title“：”机器人与自治系统“}，{“issue”：“3”，“key“：”10.1016\/j.neunet.2022.0307_b83“，”doi-asserted-by“：”crossref“，”first page“：“891”，”doi“：”101007\/s11063-017-9702-7“，“article-title”：“通过逻辑回归进行无模型深度反向强化学习”，“volume”：“47”，“author”：“Uchibe”，“year”：“2018”，“journal-title“：”Neural Processing Letters“}，{“key”：”10.106\/j-neunet.202.23.037_b84“，”doi-asserted-by“：”crossref“，”unstructured“：”Uchibe，\u00a0E.&多亚，\u00a0K。(2014). 基于线性可解MDP，组合学习的控制器以实现新目标。程序中。IEEE机器人与自动化国际会议（第5252\u20135259页）。“，”DOI“：”10.1109\/ICRA.2014.6907631“}，{“key”：”10.1016\/j.neunet.2022.0307_b85“，”DOI-asserted-by“：”crossref“，”first page“：”138“，“DOI”：”101016\/j.neunet.2021.08.017“，”article-title“：”正向和反向强化学习共享网络权重和超参数“，”volume“：“144”，”author“：”Uchibe“，”year“：”2021“，”“journal-title”：“”神经网络“}，{“key”：“10.1016\/j.neunet.2022.03.037_b86”，“非结构化”：“V\u00e9rtes，\u00a0E.，&Sahani，\u000a0M.（2018）。深度生成模型的灵活准确推理和学习。《神经信息处理系统进展》，第31卷V\u00e9rtes、\u00a0E.和萨哈尼，\u00a0M。(2019). 神经似是而非的模型在部分可观察的环境中学习后继表示。《神经信息处理系统进展》，第32卷。“}，{“key”：“10.1016\/j.neunet.2022.0307_b88”，“非结构化”：“Vieillard，\u00a0N.，Kozuno，\u001a0T.，Scherrer，\u000a0B.，Pietquin，\u0030O.，Munos，\u005a0R.，&Geist，\u0020.（2020）。利用平均值：RL中KL正则化的分析。《神经信息处理系统进展》，第33卷。“}，{“key”：“10.1016\/j.neunet.2022.0307_b89”，“doi-asserted-by”：“crossref”，“unstructured”：“Vincent，\u00a0P.，Larochell，\u000a0H.，Bengio，\u0a0Y.，&Manzagol，\u100a0A.P.（2008）.使用去噪自动编码器提取和合成鲁棒特征。2008年，ICML\u201908第25届机器学习国际会议论文集（第1096\u20131103页）。“，”DOI“：”10.1145\/1390156.1390294“}，{“key”：“10.1016\/j.neunet.2022.0307_b90”，“unstructured”：“Watter，\u00a0H.，Springenberg，\u0a0J.T.，&Riedmiller，\u000a0M.（2015）。嵌入到控制：一个用于原始图像控制的局部线性潜在动力学模型。《神经信息处理系统进展》，第28卷。”}，“{”key“：”10.1016\/j.neut.2022.03.037_b91“，”doi由“断言”：“crossref”，“非结构化”：“文亮，\u00a0K。L.和Sahani，\u00a0M。(2019). 在线识别和发布的一种神经似是而非的模型。神经信息处理系统进展，第32卷，“，”DOI“：”10.1101\/672089“}，{“issue”：“6”，“key”：“10.1016\/j.neunet.2022.03737_b92”，“DOI-asserted-by”：“crossref”，“first page”：”1603“，“DOI”：“101109\/TRO.2018.2865891”，“article-title”：“信息论模型预测控制：理论与自动驾驶应用”，“volume”：34“，”author“：”Williams“，”year“：”2018“，”journal-title“：”IEEE Transactions on Robotics“}，{”key“：”10.1016\/j.neunet.2022.037_b93“，”series-title“：“Advances in neural information processing System，Vol.33”，“first page”：“15254”，“article-title”：“Meta-gradient reinforcement learning with a objective discovery online”，“author”：“Xu”，“year”：“2020”}，}“key“：”10.1016\/j.neunet.2022.03.037_b94“，”非结构化“：”Zhang，\u00a0M。，维克兰，\u00a0S。，史密斯，\u00a0L。，阿比埃尔，\u00a0P。，约翰逊，\u00a0M.，&莱文，\u00a0S。(2019). SOLAR：用于基于模型的强化学习的深度结构化表示。第36届机器学习国际会议论文集。“}，{”issue“：”6“，”key“：”10.1016\/j.neunet.2022.03037_b95“，”doi-asserted-by“：”crossref“，”first page“：“1512”，”doi“：”101162\/NECO_a_00452“，”article-title“：”使用基于参数的探索在策略梯度中高效重复使用样本“，”volume“:”25“，”author“：”Zhao“，”year“：”2013“，”journal title“：“Neural Computation”}，”{“key”：“”10.1016\/j.neunet.2022.03.037_b96“，”非结构化“：”Ziebart，\u00a0B。D.、Maas、\u00a0A.、。，巴格内尔，\000a0J。A.和Dey，\u00a0A。K.（2008）。最大熵反向强化学习。程序中。第23届AAAI人工智能会议（第1433\u201338页）。“}]，”container-title“：[”Neural Networks“]，”original-title”：[]，”language“：”en“，”link“：[{”URL“：”https:\/\/api.elsevier.com/content\/article\/PII:S0893608022001150？httpAccept=text\/xml“，”content-type“：”text\/xml“，”content-version“：”vor“，”intended-application“：”text-mining“}，”{“URL”：“https:\//api.elsevier.com\/content\/article\/PII:S0893608022001150？httpAccept=text\/plain“，”content-type“：”text\/prain“，“content-version”：“vor”，“intended-application”：“text-mining”}]，“deposed”：{“date-parts”：[[2022,7,3]]，“date-time”：“2022-07-03T00:31:01Z”，“timestamp”：1656808261000}，“score”：1，“resource”：{“primary”：“URL”：“https:\\/linkinghub.elsevier.com\/retrieve\/pii\/S089 3608022001150“}}，”副标题“：[]，”短标题“：[]，”已发布“：{“date-parts”：[[2022,8]]}，“references-count”：96，“alternative-id”：[“S0893608022001150”]，“URL”：“http://\/dx.doi.org\/10.1016\/j.neunet.2022.03.037”，“relation”：{}，”ISSN“：[”0893-6080“]，”ISSN-type“：[{”value“：”08936080“，”type“:”print“}]，“subject”：[]，“published”：{“date-parts”：[[2022,8]]}，“assertion”：[{“value”：“Elsevier”，“name”：“publisher”，“label”：“本文由”}，{“value”：“深度学习、强化学习和世界模型”，“name”：“articletite”，“标签”：“文章标题”}CrossRef DOI链接到出版商维护的版本“}”，{“value”：“article”，“name”：“content_type”，“label”：“content-type”}，{”value“：”\u00a9 2022 The Authors.Published by Elsevier Ltd.“，”name“：”copyright“，”label“：”copyright”}]}