{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2024,8,28]],“日期-时间”:“2024-08-28T18:28:50Z”,“时间戳”:1724869730706},“引用-计数”:79,“发布者”:“Elsevier BV”,“许可证”:[{“开始”:{“日期-零件”:[2021,12,1]],”日期-时间“:”2021-12-01T00:00:00 Z“,”timestamp“:1638316800000},”content-version“:“tdm”,“delay-in-days”:0,“URL”:“https:\/\/www.elsevier.com/tdm\/userlicense\/1.0\/”},{“start”:{“date-parts”:[[2021,9,2],“date-time”:“2021-09-02T00:00:00Z”,“timestamp”:16305408000000},“content-version”:“vor”,“delay-in-days”:0 d\/4.0\/“}],”内容域“:{”域“:[”elsevier.com“,“sciencedirect.com”],“crossmark-restriction”:true},“short-container-title”:[“Neural Networks”],”published-print“:{“date-parts”:[2021,12]]},”DOI“:”10.1016\/j.neunet.2021.08.017“,”type“:”journal-article“,”created“:{“date-ports”:[2021,8,20]],”date-time“:”2021-08-20T04:14:01Z“,”timestamp“:1629432841000}“页面“:”138-153“,”更新策略“:“http://\/dx.doi.org\/10.1016\/elsevier_cm_policy”,“source”:“Crossref”、“is-referenced-by-count”:15,“special_numberg”:“C”,“title”:[“正向和反向强化学习共享网络权重和超参数”],“prefix”:“10.1016”,“volume”:《144》,“author”:[{“given”:”Eiji“family”:“Uchibe”,“sequence”:“first”,“affiliation”:[]},{“given”:“Kenji”、“family”:“Doya”,“sequence”:“additional”,“affiliation”:[]}],“member”:“78”,“reference”:[{“key”:“10.1016\/j.neunet.2021.08.017_51”,“doi-asserted-by”:”crossref“,”unstructured“:”Abbeel,P.,&Ng,A.Y.(2004)。通过反向强化学习进行学徒学习。第21届国际机器学习大会论文集。“doi”:“10.1145\/1015330.1015430”},{“key”:“10.1016\/j.neunet.2021.08.017_b2”,“unstructured”:“Ahmed,Z.,Le\u00a0Roux,M.N.,&Schuurmans,D.(2019)。理解熵对政策优化的影响。第36届国际机器学习大会议事录第151\u2013160页。”}:“Amit,R.,Meir,R.和Ciosek,K.(2020)。折扣因子作为强化学习中的正则化器。第37届国际机器学习会议论文集。”},{“key”:“10.1016\/j.neunet.2021.08.017_b4”,“doi-asserted-by”:“crossref”,“first page”:”68“,“doi”:“1016\/j.neulet.2019.05.011”,“article-title”:“多重跟踪和机器学习揭示了多巴胺通过秀丽隐杆线虫速度变化对区域限制性觅食行为的调制”,“体积”:“706”,“作者”:“阿希达”,“年份”:“2019”,“新闻标题”:“神经科学快报”},{“关键”:“10.1016\/j.neunet.2021.08.017_b5”,“首页”:“3207”,“文章标题”:”动态政策规划“,“volume”:“13”,“author”:“Azar”,“year”:“2012”,“journal-title”:“journal of Machine Learning Research”},{“issue”:“7”,“key”:”10.1016\/j.neunet.2021.08.017_56“,”doi-asserted-by“:”crossref“,”first page“:”3207“,”doi“:”10.3390\/e21070674“,”article-title“:”Markov决策过程的熵正则化“,”volume“:“21”,“author”“Belousov”“,”年份“:”2019年“,“journal-title”:“熵”},{“key”:“10.1016\/j.neunet.2021.08.017_b7”,“unstructured”:“Blond\u00e9,L.,&Kalousis,A.(2019).通过生成对抗网的有效模拟学习示例.第22届国际人工智能与统计会议议事录第3138\u20133148页.”},“article-title”:“Openai健身房”,“作者”:“Brockman”,“年份”:“2016”,“日志标题”:“ArXiv预打印”},{“问题”:“1”,“关键”:“10.1016\/j.neunet.2021.08.017_b9”,“doi-asserted-by”:“crossref”,“首页”:“18”,“doi”:“101109\/MRA.2011.2181749”,,“作者”:“奇塔”,“年份”:“2012年”,“新闻标题”:“IEEE Robotics&Automation Magazine”},{“key”:“10.1016\/j.neunet.2021.08.017_b10”,“doi-asserted-by”:“crossref”,“doi”:“10.7554\/eLife.29718”,“article-title”:“人脑反向强化学习的神经计算”,“volume”::“6”,“author”:“Collette”,“year”:“2017”,“journal-title“:”eLife“},}”key“:“10.1016\/j.neunet.2021.08.017_b11”,“unstructured”:“Degres,T.,White,M.,&Sutton,R.S.(2012).第29届国际机器学习会议议事录中的非政策参与者评论。”},{“key”:“10.116\/j.neunet.2012.08.017_ b12”,“article-title”:“规定的生成性对抗网络”,“author”:“Dieng”,“year”:“2019”,“journal-title“:“ArXiv Preprint”},{“issue”:“1”,“key”:“10.1016\/j.neunet.2021.08.017_b13”,“doi-asserted-by”:“crossref”,“首页”:“30”,“doi”:“10.2976\/1.2732246\/10.2976\/1”,“article-title”:“强化学习:计算理论和生物机制”,“volume”:”1“author”:“Doya”,”“year”:“2007”,“journal-title“:”HFSP journal“},{“键”:“10.1016\/j.neunet.2021.08.017_b14”,“doi-asserted-by”:“crossref”,“first page”:“149”,”doi“:”10.1177\/10597123050130206“,”article-title“:”网络啮齿动物项目:探索自我保护和自我生产的适应机制“,”volume“:”13“,”author“:”Doya“,”year“:”2005“,”journal-title”:“适应性行为”},{“key”:“10.1016\/j.neunet.2021.08.017_b15”,“doi-asserted-by”:“crossref”,“unstructured”:“Elfwing,S.,Uchibe,E.,&Doya,K.(2018).基于并行算法竞争的在线元学习.《遗传与进化计算会议进程》第426-433页.”,“doi”:“10.1145\/3205455.3205486”},{“key”:“1016\/j.neunet.2021.08.017_b16”,“非结构化”:“Fu,J.,Luo,K.,&Levine,S.(2018)。通过对抗性反向强化学习学习稳健回报。第六届学习表征国际会议论文集。”},{“key”:“10.1016\/J.neunet.2021.08.017_b17”,“非结构性”:“藤本,S.,van Hoof,H.,&Meger,D.(2018).在Actor-Critic方法中解决函数近似错误。程序中。第35届机器学习国际会议。“},{”key“:”10.1016\/j.neunet.2021.08.017_b18“,”unstructured“:”Ghasemipour,S.K.S.,Zemel,R.,&Gu,S.(2019).模仿学习方法的发散最小化观点.第三届机器人学习会议进程pp.1259\u20131277.“}”,{“key”:“10.1016\/j.newnet.2021.07.017_b19”,“unstructure”:“Ghosh,P.,Sajjadi,M.S.”。M.、Vergari,A.、Black,M.和Scholkopf,B.(2019年)。从变分到确定性自动编码器。程序中。第七届国际学习代表大会。“},{”key“:”10.1016\/j.neunet.2021.08.017_b20“,”series-title“:”Advances in Neural Information Processing Systems 27“,”first page“:“2672”,”article-title“:“Generative敌对网络”,”author“:”Goodfellow“,”year“:”2014“}”,{“key”:“10.1016\/j.net.2021.08.017_b21”,”非结构化“:”Haarnoja,T.,Zhou,A.,Abbeel,P.,&Levine,S.(2018)软参与者-关键:非策略最大熵深度强化学习与随机参与者。程序中。第35届国际机器学习会议第1856\u20131865页。“},{”key“:”10.1016\/j.neunet.2021.08.017_b22“,”article-title“:”Soft actor-critic algorithms and applications“,”author“:”Haarnoja“,”year“:”2018“,”journal title“:Henderson,P.、Chang,W.-D.、Bacon,P.-L.、Meger,D.、Pineau,J.和Precup,D.(2018年)。OptionGAN:使用生成性对手反向强化学习学习联合奖励政策选项。程序中。第32届AAAI人工智能会议。“,”DOI“:”10.1609\/aaai.v32i1.11775“},{“key”:“10.1016\/j.neunet.2021.08.017_b24”,“DOI-asserted-by”:“crossref”,“unstructured”:“Henderson,P.,Islam,R.,Bachman,{“issue”:“10”,“key”:“10.1016\/j.neuet.20210.08.17_b25”,“doi asserted by”:“crossref”,“doi”:“10.1002\/ecs2.2447”,“文章标题”:“人工智能能预测动物运动吗?使用反向强化学习填补动物运动轨迹的空白”,“author”:“Hirakawa”,“year”:“2018”,“journal title”:“Ecosphere”},{“key”:“10.1016\/j.neuet.20210.08.17_b26”,“非结构化”:“Ho,J.,&Ermon,S.(2016)。生成性对抗性模仿学习。神经信息处理系统进展(第29卷),第4565-4573页。”:“10.1016\/j.neunet.2021.08.017_b28”,“unstructured”:“Jena,R.,Liu,C.,&Sycara,K.(2020)。使用BC增强GAIL以实现样本高效模仿学习。在第三届机器人学习会议的议事录中。”},{“key”:“10.116\/j-neunet.2012.08.017_ b29”,“非结构化”:“Ke,L.,Barnes,M.,Sun,W.,Lee,G.,Choudhury,S.,&Srinivasa,S。过程中作为f-发散最小化的模拟学习。第14届机器人算法基础国际研讨会(WAFR)。“},{”key“:”10.1016\/j.neunet.2021.08.017_b30“,”unstructured“:”Kingma,D.,&Ba,j.(2015).ADAM:一种随机优化方法.在第三届国际学习表征会议的进程中10.1080\/01691864.2020.1778521“,“article-title”:“通过概率图形模型整合使用GAIL的模仿学习和使用任务成就奖励的强化学习”,“author”:“Kinose”,“year”:“2020”,“journal-title“:“Advanced Robotics”},{“key”:“10.1016\/j.neunet.2021.08.017_b32”情境GAIL:使用任务条件对抗性反向强化学习进行多任务模仿“,“作者”:“小林”,“年份”:“2019年”,“新闻标题”:“ArXiv预印本”},{“问题”:“11”,“关键”:“10.1016\/j.neunet.2021.08.017_b33”,“doi-asserted-by”:“crossref”,“首页”:“1238”,“doi”:“101177\/0278364913495721”,“文章标题”:机器人强化学习:调查”,“卷”:“32”,“作者”:“Kober”,“年份”:“2013年”,“新闻标题”:“国际机器人研究杂志”},{“关键”:“10.1016\/j.neunet.2021.08.017_b34”,“非结构化”:“科斯特里科夫,I.,Agrawal,K.K.,Dwibedi,D.,Levine,S.,&Tompson,j.(2019)歧视者-行动者-批评者:解决对抗性模仿学习中的样本效率低下和奖励偏见。程序中。第七届国际学习代表大会。“},{”key“:”10.1016\/j.neunet.2021.08.017_b35“,”unstructured“:”Kozuno,T.,Uchibe,E.,&Doya,K.(2019).强化学习中Softmax和Gap-Increased算子效率和稳健性的理论分析.第22届国际人工智能与统计会议论文集.pp.2995\u20133003.“}”,{“key”:“10.1016\/j.neunet.2021.08.017_b36“,”doi-asserted-by“:”crossref“,”doi“:”10.1177\/0278364915619772“,”article-title“:”通过反向强化学习实现符合社会要求的移动机器人导航“,”author“:”Kretzschmar“,”year“:”2016“,”journal-tittle“:”The International journal of Robotics Research“},”{“key”:“10.1016//j.neunet.2021.08.017_b37”,“非结构化”:“Laskey,M.、Lee,J.、Fox,R.、Dragan,A.和Goldberg,K.(2017)。DART:稳健模拟学习的噪声注入。程序中。第一届机器人学习会议。“},{”key“:”10.1016\/j.neunet.2021.08.017_b38“,”unstructured“:”Lee,B.-j.,Lee,j.,Vrancx,P.,Kim,D.,&Kim,K.-E.(2020).超参数梯度的批量强化学习.第37届国际机器学习会议记录。“}首页“:”932“,”DOI“:”10.1109\/TNNLS.2017.2650943“,”article-title“:”流形正规强化学习“,”volume“:”29“,”author“:”Li“,”year“:”2018“,”journal-title”:“IEEE Transactions on Neural Networks and learning Systems”},{“key”:“10.1016\/j.neunet.2021.08.017_b40”,“unstructured”:“Lillicrap,T.P.,Hunt,j。J.、Pritzel,A.、Heess,N.、Erez,T.和Tassa,Y.等人(2016年)。通过深度强化学习进行持续控制。程序中。第四届国际学习代表大会。“},{”key“:”10.1016\/j.neunet.2021.08.017_b41“,”series-title“:”第14届IEEE移动数据管理国际会议论文集“,”首页“:”177“,”article-title“:“通过反向强化学习理解序列决策”,“author”:“Liu”,“year”:“2013”},“key”:“10.1016\\j.neunet.2021.08.017_b42”,“unstructured”:“”Liu,Z.、Li,X.、Kang,B.和Darrell,T.(2021)。政策优化中的规则化问题\u2013——持续控制的实证研究。程序中。第九届国际学习代表大会。“},{”issue“:”7540“,”key“:”10.1016\/j.neunet.2021.08.017_b43“,”doi-asserted-by“:”crossref“,”first page“:“529”,”doi“:”101038\/nature14236“,”article-title“:”通过深度强化学习进行人性化控制“,”volume“:\/j.neunet.2021.08.017_b44“,”doi-asserted-by“:”crossref“,”first page“:”603“,”doi“:”10.1007\/s00422-014-0599-1“,”article-title“:”乒乓球学习策略使用反向强化学习。“,”volume“:”108“,”author“:”Muelling“,”year“:”2014“,”journal-title“:”Biological Control netics“},{”issue“:”2\u20133“,”key“:“10.1016\/j.neunet.2021.08.017_b45”,”doi-asserted-by“:”crossref“,”first-page:“303”,“doi”:“10.1007\/s10994-009-5110-1”,“article-title”:“通过反向强化学习训练解析器”,“volume”:“77”,“author“:”Neu“,”年份“:”2009年,“journal-title”:“机器学习”},{“key”:“10.1016\/j.neunet.2021.08.017_b46”,“unstructured”:“Ng,A.Y.,&Russell,S.(2000)。逆强化学习算法。第十七届国际机器学习会议论文集。”}、{“key”:没有外在奖励的歧视性软演员评论家”,“作者”:“Nishio”,“年份”:“2020”,“期刊标题”:“ArXiv预印本”},{“密钥”:“10.1016\/j.neuet.20210.08.17_b48”,“doi断言”:“crossref”,“doi”:“10.1016\/j.automatica.2019.08672”,“文章标题”:“多层线性不确定系统的强化学习和非零和博弈输出调节”,“卷”:“112”,“作者”:“Odekunle”,“年份”:“2020”,“期刊标题”:“Automatica”},{“问题”:“103”,“关键”:“10.1016\/j.neunet.2021.08.017_b49”,“文章标题”:”受限深度Q-学习逐渐接近普通Q-学习“,卷”:”13“author“:”Ohnishi“,”year“:”2019“,”journal-title“:”Neurorobotics的前沿“},{“key”:“10.1016\/j.neunet.2021.08.017_b50”,“article-title”:“用机器人手解决rubik\u2019s立方体”,“author”:“OpenAI”,“year”:“2019”,“journal-title”:“ArXiv预打印”},“key“:”10.1016//j.neunet.2021.08.017_b51“,”article-title“”:“”Dota 2与大规模深度强化学习“,”author“:”OpenAI“,”year“:”2019“,”journal-title“:”ArXiv Preprint“},{”issue“:”8“,”key“:”10.1016\/j.neunet.2021.08.017_b52“,”doi-asserted-by“:”crossref“,“first page”:“1467”,“doi”:“10.1007\/s10994-019-05788-0”,“article-title”:“TD-regulated actor-critic methods”,“author”:“Parisi“,”年份“:”2019“,”journal-title“:”机器学习“},{“issue”:“4”,“key”:“10.1016\/j.neunet.2021.08.017_b53”,“first-pages”:“1”,“article-title”:“使用策略梯度强化运动技能学习”,“author”:“Peters”,“year”:“2008”,“journal-title”:“Neural Networks”}神经信息处理系统进展1”,“首页”:“305”,“文章标题”:“ALVINN:神经网络中的自主陆地车辆”,“作者”:“Pomerleau”,“年份”:“1989”},{“键”:“10.1016\/j.neunet.2021.08.017_b55”,“非结构化”:“Reddy,S.,Dragan,a.D.,&Levine,S.(2020).SQIL:通过正规行为克隆模仿学习。程序中。第八届国际学习代表大会。“},{”key“:”10.1016\/j.neunet.2021.08.017_b56“,”unstructured“:”Ross,S.,Gordon,G.,&Bagnell,D.(2011)。将模仿学习和结构化预测减少为无更新的在线学习。第十四届人工智能与统计国际会议论文集第627-635页。“}非结构化”:“Sasaki,F.、Yohira,T.和Kawaguchi,A.(2019)。连续控制的有效模拟学习示例。程序中。第七届国际学习代表大会。“},{”key“:”10.1016\/j.neunet.2021.08.017_b58“,”unstructured“:”Schaul,T.,Horgan,D.,Gregor,K.,&Silver,D.(2015).通用值函数近似值.第32届机械学习国际会议论文集pp.1312\u20131320.“}Shimosaka,M.、Kaneko,T.和Nishi,K.(2014)。利用反向强化学习对住宅道路上的风险预测和防御性驾驶进行建模。程序中。第17届IEEE智能交通系统国际会议第1694\u20131700.页,“DOI”:“10.1109\/ITSC.2014.6957937”},{“问题”:“7676”,“关键”:“101016\/j.neunet.2021.08.017_b60”,“DOI-asserted-by”:“crossref”,“首页”:“354”,“DOI:“10.1038\/nature24270”,“article-title”:“在没有人类知识的情况下掌握围棋游戏”,“卷”:“550“,”author“:”Silver“,”year“:”2017“,”journal-title“:”Nature“},”{“key”:“10.1016\/j.neunet.2021.08.017_b61”,”series-title“:“机器学习中的密度比估计”,“author”:“Sugiyama”,“year”:“2012”},“key“:”10.1016\\j.neunet.2021.08.017_b62“,”unstructured“:”Sun,M.,&Ma,X.(2014).从不完整的演示中学习对抗性模仿。程序。第28届国际人工智能联合会议。“},{”key“:”10.1016\/j.neunet.2021.08.017_b63“,”series-title“:”强化学习“,”author“:”Sutton“,”year“:”1998“}”,{“key”:“10.1016\\j.neunet.2021.08.017_b64”,”doi-asserted-by“:”crossref“,”unstructured“:”Todorov,E.,Erez,T.,&Tassa,Y.(2012)MuJoCo:基于模型控制的物理引擎。程序中。IEEE\/RSJ智能机器人和系统国际会议。pp.5026\u20135033.“,”DOI“:”10.1109\/IROS.2012.6386109“},{“key”:“10.1016\/j.neunet.2021.08.017_b65”,“DOI-asserted-by”:“crossref”,“unstructured”:“Torabi,F.,Warnell,G.,&Stone,P.(2018).观察中的行为克隆。程序中。第27届国际人工智能联合会议和第23届欧洲人工智能会议第4950-4957页,“DOI”:“10.24963\/ijcai.2018\/687”},{“key”:“10.1016\/j.neunet.2021.08.017_b66”,“series-title”:“ICML 2019模仿、意图和交互研讨会”,“article-title”:观察产生的对抗性模仿”,“作者”:“Torabi”,“年份”:“2019”},{“关键”:“10.1016\/j.neunet.2021.08.017_b67”,“doi-asserted-by”:“crossref”,《首页》:“72”,“doi”:“101016\/j.robot.2018.11.004”author“:”Tsurumine“,”year“:”2019“,”journal-title“:”Robotics and Autonomous Systems“},{”issue“:”3“,”key“:”10.1016\/j.neunet.2021.08.017_b68“,”doi-asserted-by“:”crossref“,”first page“:年份:“2018”,“journal-title”:“Neural Processing Letters”},{“key”:“10.1016\/j.neunet.2021.08.017_b69”,“doi-asserted-by”:“crossref”,“unstructured”:“Uchibe,E.,&Doya,K.(2014).使用动态策略规划的反向强化学习。程序中。IEEE国际发展与学习会议和表观遗传机器人学第222\u2013228页,“DOI”:“10.1109\/DEVLRN.2014.6982985”},{“问题”:“7782”,“关键”:“101016\/j.neunet.2021.08.017_b70”,“DOI-asserted-by”:“crossref”,“首页”:“350”,“DOI:”10.1038\/s41586-019-1724-z“,“文章标题”:“星际争霸II级大师级使用多智能体强化学习“,”卷“:”575“,”作者“:”维尼亚尔斯“,”年份“:”2019“,”新闻标题“:”自然“},{“关键”:“10.1016\/j.neunet.2021.08.017_b71”,“非结构化”:“Vogel,A.,Ramachandran,D.,Gupta,R.,&Raux,A.(2012).使用反向强化学习提高混合动力汽车的燃油效率。程序中。第26届AAAI人工智能会议。“},{”issue“:”6“,”key“:”10.1016\/j.neunet.2021.08.017_b72“,”doi-asserted-by“:”crossref“,”first-page“:”763“,”doi“:”101016\/j.isatra.2012.06.007“,”article-title“:”X-Z倒立摆的稳定与跟踪控制,滑模控制“volume”:“51”,“author”:“Wang”,“year”:“2012”,“journal-title”:“ISA Transactions”},”{“issue”:“6”,“键”:“10.1016\/j.neunet.2021.08.017_b73“,”doi-asserted-by“:”crossref“,”first page“:”1“,”doi“:”10.1016\\j.neunet.2019.04.026“,”article-title“:”带强化学习的扭摆装置近似神经最优控制“,”volume“:“117”,”author“:”Wang“,”year“:”2019“,”journal-title”:“neural Networks”},{“key”:“10.1016\/j.neunet.2021.08.017_b74“,”doi-asserted-by“:”crossref“,”first page“:”1“,”doi“:”10.1016\/j.robot.2016.06.003“,”article-title“:”自主导航中的神经逆强化学习“,”volume“:“84”,”author“:”Xia“,”year“:”2016“,”journal-title”:“Robotics and autonomous Systems”},{“key”:“10.1016\\j.neunet.2021.08.017_b75”,“”doi-asserted-by“:”crossref“,”doi“:”10.1371\/journal.pcbi.1006122“,”article-title“:”通过反向强化学习识别动物行为策略“,”author“:”Yamaguchi“,“year”:“2018”,“journal-title”:“PLoS计算生物学”},{“key”:“10.1016\/j.neunet.2021.08.017_b76”,“article-title”提高从图像中进行无模型强化学习的样本效率”,“作者”:“Yarats”,“年份”:“2020年”,“日记标题”:“ArXiv预打印”},{“关键”:“10.1016\/j.neunet.2021.08.017_b77”,“非结构化”:“Zhang,B.,Rajan,R.,Pineda,L.,Lambert,N.,Biedenkapp,A.,&Chua,K.,et al。论超参数优化在基于模型的强化学习中的重要性。程序中。第24届国际人工智能与统计会议第4015-4023页10.1016\/j.neunet.2021.08.017_b79“,”doi-asserted-by“:”crossref“,”first page“:”60“,”doi“:”10.1016\\j.neucom.2020.016.016“,”article-title“:”决定性生成对抗性模仿学习“,”author“:”Zuo“,”year“:”2020“,”journal-title”:“Neurocomputing”}],”container-title:[“神经网络”],”original-title:[],”language“:”en“,”link“:[”{“URL”:“https:\/\/api.elsevier.com/content\/article\/PII:S0893608021003221?httpAccept=text\/xml“,”content-type“:”text\/.xml“,”content-version“:”vor“,”intended-application“:”text-mining“},{“URL”:“https:\/\/api.elsevier.com/content\/article\/PII:S0893608021003221?httpAccept=text\/plain“,”内容类型“:”文本\/plaine“,”content-version”:“vor”,“intended-epplication”:“text-mining”}],“deposed”:{“date-parts”:[[2023,1,7]],“date-time“:”2023-01-07T17:47:30Z“,”timestamp“:1673113650000},”score“:1,”resource“:{主要”:{“URL”:“https:\/\/linkinghub.elsevier.com/retrieve\/pii\/S0893608021003221”}},“subtitle”:[],“shorttitle”:[],“issued”:{“date-parts”:[2021,12]]},《references-count》:79,“alternative-id”:[“S0893608021003221”],“URL”:“http:\/\/dx.doi.org\/10.1016\/j.neunet.2021.08.017“,”关系“:{},”ISSN“:[”0893-6080“],”ISSN-type“:[{”value“:”0893-6080“,”type“:”print“}],”主题“:[],”发布“:{”date-parts“:[2021,12]]},“断言”:[{“value”:“Elsevier”,“name”:“publisher”,“label”:“此文章由”},{维护“值”:“正向和反向强化学习共享网络权重和超参数“,”name“:”articletitle“,”label“:”Article Title“},”{“value”:“Neural Networks”,“name”:“journaltitle”,“label”:“Journal Title”},{“value”:“https:\/\/doi.org\/10.1016\/j.neunet.2021.08.017”,“name”:“articlelink”,“table”:“CrossRef doi link to publisher maintained version”}、{“value”:“article”,“name”:“content_type”,“label”:“content-type”},{“value”:“\u00a9 2021 The Authors.Published by Elsevier Ltd.”,“名称”:“版权”,“标签”:“copyright”}]}