×

通过神经进化实现非线性局部强化学习规则。 (英语) Zbl 1448.92025号

摘要:我们考虑了人工神经网络控制器的局部强化学习规则设计问题。基于人工神经网络的通用逼近特性,我们采用人工神经网络表示学习规则,并使用进化算法进行优化。我们在四个任务的部分可观察版本中评估了ANN规则:山地车、机器人、车柱平衡和非平稳山地车。为了测试这种基于人工神经网络的进化学习规则的性能是否令人满意,我们将其性能与SARSA(lambda)和tile编码的性能进行了比较,后者提供了完整或部分状态信息。比较表明,进化规则的性能远优于部分状态信息的SARSA(lambda),并且可以与完全状态信息的规则进行比较,而在非平稳环境中,进化规则具有更强的适应性。因此,很明显,所提出的方法在部分可观测和非平稳环境中都特别有效。此外,它还可能被用于创建可应用于多个领域和迁移学习场景的更通用规则。

MSC公司:

92B20型 生物研究、人工生命和相关主题中的神经网络
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ackley,D.、Hinton,G.和Sejnowski,T.(1985年)。波尔兹曼机器的学习算法。认知科学,9(1),147-169,
[2] Ay,N.、Bernigau,H.、Der,R.和Prokopenko,M.(2012年)。信息驱动的自组织:自主机器人行为的动力系统方法。生物科学理论,131(3),161-179,
[3] Barto,A.G.、Sutton,R.S.和Anderson,C.W.(1983年)。类似神经元的自适应元件可以解决困难的学习控制问题。IEEE系统、人与控制论转换,13(5),834-846,
[4] Dabney,W.和Barto,A.G.(2012年)。用于在线时间差学习的自适应步长。J.Hoffmann和B.Selman(编辑),《第二十六届AAAI人工智能会议论文集》。加利福尼亚州门罗公园:AAAI出版社。
[5] Durbin,R.和Rumelhart,D.(1989)。产品单元:对反向传播网络的一种计算能力强且生物学上合理的扩展。神经计算,1(1),133-142,
[6] Fahlman,S.E.和Lebiere,C.(1990年)。级联相关学习体系结构。在D.S.Touretzky(编辑),神经信息处理系统的进展2(第524-532页)。加利福尼亚州旧金山:Morgan Kaufmann。
[7] Floreano,D.、Dürr,P.和Mattiussi,C.(2008)。神经进化:从架构到学习。进化情报,1(1),47-62,
[8] Funahashi,K.和Nakamura,Y.(1993年)。用连续时间递归神经网络逼近动力系统。神经网络,6(6),801-806,
[9] Gomez,F.、Schmidhuber,J.和Miikkulainen,R.(2008)。通过协同进化的突触加速神经进化。机器学习研究杂志,9,937-965·Zbl 1225.68182号
[10] Gorchetchnikov,A.、Versace,M.、Ames,H.、Chandler,B.、Léveille,J.、Livitz,G.、Mingolla,E.、Snider,G.,Amerson,R.、Carter,D.、Abdalla,H.和Qureshi,M.S.(2011年)。回顾和统一记忆神经形态硬件的cog-ex-machina平台中的学习框架。《2011年国际神经网络联合会议论文集》(IJCNN 2011)(第2601-2608页)。新泽西州皮斯卡塔韦:IEEE,
[11] Gordon,G.J.(2001)。函数逼近的强化学习收敛于一个区域。T.K.Leen、T.G.Dietterich和V.Tresp(编辑),《神经信息处理系统的进展》,13(第1040-1046页)。马萨诸塞州剑桥:麻省理工学院出版社。
[12] Hornik,K.、Stinchcombe,M.B.和White,H.(1989年)。多层前馈网络是通用逼近器。神经网络,2(5),359-366·Zbl 1383.92015年
[13] Kolodziejski,C.、Porr,B.和Wörgötter,F.(2008)。神经元TD-规则的数学特性与差异Hebbian学习:比较。生物控制论,98,259-272·Zbl 1146.92002号
[14] Lehman,J.和Stanley,K.O.(2011年)。放弃目标:仅通过寻找新奇事物进行进化。进化计算,19(2),189-223,
[15] Li,L.(2009)。计算强化学习理论的统一框架。罗格斯大学博士论文。
[16] Lukoševičius,M.和Jaeger,H.(2009)。递归神经网络训练的油藏计算方法。《计算机科学评论》,3(3),127-149·Zbl 1302.68235号
[17] Moore,A.(1990年)。机器人控制的高效基于记忆的学习。剑桥大学博士论文。
[18] Mouret,J.-B.和Doncieux,S.(2012年)。鼓励进化机器人的行为多样性:一项实证研究。进化计算,20(1),91-133,
[19] Park,J.和Sandberg,I.W.(1991年)。使用径向基函数网络的通用近似。神经计算,3(2),246-257,
[20] Rao,R.P.N.和Sejnowski,T.J.(2001)。尖峰时间依赖的Hebbian可塑性作为时间差异学习。神经计算,13(10),2221-2237·Zbl 0982.92006号
[21] Risi,S.、Hughes,C.E.和Stanley,K.O.(2010年)。具有新颖性搜索的进化塑料神经网络。适应性行为,18,470-491,
[22] Risi,S.和Stanley,K.O.(2010年)。将神经可塑性间接编码为局部规则模式。第十一届国际适应行为模拟会议论文集:从动物到动画(SAB 2010)(第533-543页)。纽约:斯普林格,
[23] Rummery,G.A.和Niranjan,M.(1994年)。使用连接系统的在线Q学习。(技术代表CUED/F-INFENG/TR 166)。剑桥:剑桥大学。
[24] Shalev-Shwartz,S.、Shamir,O.、Srebro,N.和Sridharan,K.(2010年)。可学习性、稳定性和一致收敛性。机器学习研究杂志,112635-2670·Zbl 1242.68247号
[25] Singh,S.P.和Sutton,R.S.(1996年)。通过替换资格痕迹强化学习。机器学习,22,123-158·邮编1099.68700
[26] 斯波格,M.W.(1994)。Acrobot的摆动控制。1994年IEEE机器人与自动化会议记录(第2356-2361页)。新泽西州皮斯卡塔韦:IEEE,
[27] Stanley,K.O.(2007)。组合模式生成网络:发展的新抽象。遗传程序设计与进化机器,8(2),131-162,
[28] Stanley,K.O.和Miikkulainen,R.(2002)。通过增强拓扑进化神经网络。进化计算,10(2),99-127,
[29] Sutton,R.S.和Barto,A.G.(1998年)。强化学习:简介。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1407.68009号
[30] Suttorp,T.、Hansen,N.和Igel,C.(2009年)。可变度量进化策略的有效协方差矩阵更新。机器学习,75(2),167-197·兹比尔1470.68183
[31] Tsitsiklis,J.N.和Van Roy,B.(1997年)。函数逼近的时间差分学习分析。IEEE自动控制汇刊,42(5),674-690·Zbl 0914.93075号
[32] Watkins,C.J.C.H.和Dayan,P.(1992年)。Q学习。机器学习,8279-292·兹比尔0773.68062
[33] 怀特,A.(2006)。NIPS研讨会:第一届年度强化学习竞赛。检索自http://rlai.cs.ualberta.ca/rlai/rlc.html。
[34] Whiteson,S.、Tanner,B.、Taylor,M.E.和Stone,P.(2011年)。防止经验强化学习中的评估过拟合。2011年IEEE自适应动态规划和强化学习研讨会论文集(第120-127页)。新泽西州皮斯卡塔韦:IEEE,
[35] Wörgötter,F.和Porr,B.(2005)。时间序列学习、预测和控制:不同模型及其与生物机制的关系综述。神经计算,17,245-319,
[36] 姚,X.(1999)。进化人工神经网络。IEEE会议录,87(9),1423-1447,
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。