{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2024,4,27]],“日期-时间”:“2024-04-27T23:12:47Z”,“时间戳”:1714259567642},“引用-计数”:26,“出版商”:“SAGE出版物”,“问题”:“6”,“许可证”:[{“开始”:{/“日期-零件”:[2008,12,1]],”“日期-时刻”:“2008”12-01T00:00:00Z“,”时间戳“:1228089600000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“http://\/journals.sagepub.com/page\/policys\/text-and-data-mining-license”}],“content-domain”:{“domain”:[],“crossmark-restriction”:false},“short-container-title”:[“自适应行为”],“published-print”:{“date-parts”:[[2008,12]]},”abstract“:”在本文中,我们探索了一种进化方法来优化强化学习中基于潜能的塑造奖励和元参数。在初始性能和收敛速度方面,形成奖励是提高强化学习学习性能的常用方法。塑造奖励以更丰富的奖励信号的形式为代理人提供额外的知识,引导学习进入高回报状态。强化学习严重依赖于一些调节学习更新或环境探索的元参数,例如学习率u03b1、未来奖励的折扣因子u03b3以及控制softmax动作选择中探索和利用之间权衡的温度u03c4。我们在使用山地车任务的模拟中验证了所提出的方法。我们还使用机器人觅食任务,将模拟中进化获得的成形奖励和元参数传递给硬件<\/jats:p>“,”DOI“:”10.1177\/1059712308092835“,”type“:”journal-article“,”created“:{”date-parts“:[[2008,11,13]],”date-time“:”2008-113T13:10:00Z“,”timestamp“:1226581800000},”page“:10.1177英寸卷“:”16“,”作者“:[{“given”:“Stefan”,“family”:“Elfwing”,“sequence”:“first”,“affiliation”:[{name”:“瑞典KTH自治系统、数值分析和计算机科学中心,日本冲绳理工学院神经计算室”}]},{given:“Eiji”,“家族”:“Uchibe”,“序列”:“additional”,“feliation”:[{”name“:”日本冲绳科学技术研究所神经计算单元“}]},{“given”:“Kenji”,“family”:“Doya”,”sequence“:”additional“,”affiliation“:[{“name”:“日本冲绳理工学院神经计算单元”,“}]{”given“:”Henrik I.“,”family“:”Christensen“,“sequence”:“additional”,”affaliation“:[{”name“:“”瑞典KTH自治系统、数值分析和计算机科学中心,“}]}],“成员”:“179”,“在线发布”:{“日期部分”:[[2008,12,1]]},“参考”:[{“关键”:“atypb1”,“非结构化”:“Ackley,D.H.&Littman,M.L.(1991)。学习与进化之间的相互作用。C.G.Langton,C.Taylor,C.D.Farmer,&S.Rasmussen(编辑)《人工生命II:圣达菲研究所复杂性科学研究》(第10卷,第487-509页)。加利福尼亚州雷德伍德市:Addison-Wesley。“},{”key“:”atypb2“,”volume-title“:”学习理论“,”author“:”Bower,G.H.“,“year”:“1981”,“edition”:“5”},“key”:“atypb3”,“doi-asserted-by”:“publisher”,“doi”:“10.1177\/10597123050130006”}},{“key”:“atypb5”,“volume-title”:“达尔文体现了生存学习能力的进化”,“作者”:“Elfwing,S.”,“年份”:“2007”},{“key”:“atypb6”,“doi-asserted-by”:“publisher”,”doi“:“10.1109 \\TEVC.2006.890270”}“publisher”,“doi”:“10.1145\/1143844.1143906”},{“key“:”atypb9“,”unstructured“:”Laud,A.&DeJong,G.(2002)。强化学习和塑造:鼓励预期行为。《机器学习国际会议论文集》,ICML2002(第355-362页)。加利福尼亚州旧金山:Morgan Kaufmann。},{“key”:“atypb10”,“unstructured”:“Laud,A.&DeJong,G.(2003)。奖励对强化学习速度的影响:成型分析。《机器学习国际会议论文集》,ICML2003(第440-447页)。加利福尼亚州旧金山:摩根·考夫曼。”}10.1145\/1273496.1273572“},{“key”:“atypb12”,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/B978-1-55860-335-6.50030-1”},}“key”:”atypb13“,”doi-assert-by“:”publisher jair.613“},{“key”:“atypb15”,“非结构化”:“Ng,A.Y.,Harada,D.&Russell,S.J.(1999)奖励转换下的政策不变性:奖励形成的理论和应用。《机器学习国际会议论文集》,ICML1999(第278-287页)。加利福尼亚州旧金山:Morgan Kaufmann。“},{”key“:”atypb16“,”volume-title“:”进化机器人学。自组织机器的生物学、智能和技术“,”author“:”Nolfi,S.“,”year“:”2000“}、{”key“:“atypb17”、“volume-title”:“使用强化学习和塑造来学习驾驶自行车”,“author”:“Randl\u00f8v,J.”,“year”:“1998”},“key”:“atypb18”,“volume-title”:”使用连接系统的在线Q学习。技术报告CUED\/F-INFENG\/TR 166“,”author“:”Rummery,G.A.“,”year“:”1994“},”key“:”atypb19“,”doi-asserted-by“:”publisher“,“doi”:“10.1007\/BF00114726”},非结构化“:”Stanley,K.O.和Miikkulainen,R.(2002)。通过进化的神经网络拓扑结构进行有效的强化学习。《遗传和进化计算会议论文集》,GECCO2002(第569-577页)。加利福尼亚州旧金山:Morgan Kaufmann。},{“key”:“atypb22”,“unstructured”:“Sutton,R.S.(1996)。强化学习中的泛化:使用稀疏粗编码的成功示例。D.S.Touretzky,M.C.Mozer,&M.E.Hasselmo(编辑),《神经信息处理系统进展》8(第1038-1044页)。马萨诸塞州剑桥:麻省理工学院出版社。”}强化学习:简介”,“作者”:“Sutton,R.S.”,“年份”:“1998”},{“key”:“atypb24”,“doi-asserted-by”:“publisher”,”doi“:”10.1016\/S0921-890(02)00170-7“},”key“:”atypb25“,”首页“:”877“,”volume“:“7”,”author“:”Whiteson,S.“年”:“2006”,”journal-title“:”journal of Machine learning Research“}”,{”key:“atypb26”,“doi-asserted-by”:“publisher“,”DOI“:”10.1613\/jair.1190“}],”container-title“:[”自适应行为“],”原始标题“:[],”语言“:”en“,”链接“:[{”URL“:”http://\/journals.sagepub.com\/DOI\/pdf\/10.1177\/1059712308092835“,”内容类型“:”application\/pdf“,“content-version”:“vor”,“intended-application”:“text-mining”},{“URL”:“”http://\/journals.sagepub.com/doi\/pdf\/10.1177\/1059712308092835“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[[2021,3,16]],”date-time“:“2021-03-16T08:23:58Z”,”timestamp“:1615883038000},”score“:1,”resource“:”{“primary”:{“URL”:“http:\/\/journals.sagepub.com/doi\/10.1177\/1059712308092835“}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[[2008,12]]},“引用计数”:26,”日志发布“:}”发布“:“6”,”发布发布“:”日期部分URL“:”http://\/dx.doi.org\/10.1177\/1059712308092835“,”关系“:{},”ISSN“:[”1059-7123“,”1741-2633“],”ISSN类型“:[{”value“:”1059-7123“,”type“:”print“},”value“:”1741-2633“,”type“:”electronic“}],”subject“:[],”published“:{”date parts“:[[2008,12]}}}