×

兼容的自然梯度策略搜索。 (英语) Zbl 1493.68311号

摘要:信任区域方法在政策搜索中产生了最先进的结果。一种常见的方法是使用KL-divergence来限定信任区域,从而实现自然梯度策略更新。我们证明,如果我们将标准指数策略分布的自然参数化与相容值函数近似相结合,那么自然梯度和信赖域优化是等价的。此外,我们还表明,标准自然梯度更新可能会根据错误的调度减少策略的熵,从而导致过早收敛。为了控制熵减少,我们引入了一种新的策略搜索方法,称为兼容策略搜索(COPOS),它限制了熵损失。实验结果表明,COPOS在具有挑战性的连续控制任务和离散的部分可观测任务中产生了最新的结果。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdolmaleki,A.、Lioutikov,R.、Peters,J.、Lau,N.、Reis,L.和Neumann,G.(2015)。基于模型的相对熵随机搜索。《神经信息处理系统进展》,麻省理工学院出版社。
[2] Abdolmaleki,A.、Springenberg,J.T.、Tassa,Y.、Munos,R.、Heess,N.和Riedmiller,M.(2018年)。最大化后验策略优化。在学习代表国际会议(ICLR)的会议记录中。
[3] Akrour,R.、Abdolmaleki,A.、Abdulsamad,H.和Neumann,G.(2016)。强化学习的无模型轨迹优化。机器学习国际会议(ICML)论文集·Zbl 1437.68147号
[4] Akrour,R.、Abdolmaleki,A.、Abdulsamad,H.、Peters,J.和Neumann,G.(2018年)。基于无模型轨迹的单调改进策略优化。机器学习研究杂志,19(14),1-25·Zbl 1437.68147号
[5] Amari,S.(1998)。自然梯度在学习中有效。神经计算,10(2),251-276·doi:10.1162/08997669830017746
[6] Bagnell,J.A.和Schneider,J.(2003)。协变策略搜索。IJCAI公司。
[7] Bernacchia,A.、Lengyel,M.和Hennequin,G.(2018年)。深线性网络中的精确自然梯度及其在非线性情况下的应用。《神经信息处理系统(NIPS)进展》,Curran Associates,Inc.,第5945-5954页。
[8] Boyd,S.和Vandenberghe,L.(2004)。凸优化。剑桥:剑桥大学出版社·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[9] Daniel,C.、Neumann,G.、Kroemer,O.和Peters,J.(2016)。层次相对熵策略搜索。机器学习研究杂志(JMLR),17(93),1-50·Zbl 1367.68318号
[10] Dosovitskiy,A.、Ros,G.、Codevilla,F.、Lopez,A.和Koltun,V.(2017年)。卡拉:开放式城市驾驶模拟器。机器人学习会议,第1-16页。
[11] Duan,Y.、Chen,X.、Houthooft,R.、Schulman,J.和Abbeel,P.(2016)。将深层强化学习作为持续控制的基准。2016年6月19日至24日,在美国纽约州纽约市举行的第33届国际机器学习会议记录中,第1329-1338页。http://jmlr.org/proceedings/papers/v48/dua16.html。
[12] Geist,M.和Pietquin,O.(2010年)。用值函数逼近法重温自然actor-critics。在人工智能建模决策国际会议上,施普林格,第207-218页。
[13] Hansen,N.和Ostermeier,A.(2001年)。进化策略中完全失范的自我适应。进化计算,9(2),159-195·doi:10.1162/106365601750190398
[14] 卡卡德,S。;Dietterich,TG(编辑);Becker,S.(编辑);Ghahramani,Z.(编辑),《自然政策梯度》,1531-1538(2001),剑桥
[15] Kober,J。;彼得斯,JR;Koller,D.(编辑);Schuurmans,D.(编辑);Bengio,Y.(编辑);Bottou,L.(编辑),机器人学中电机原语的政策搜索,849-856(2009),Red Hook
[16] Lillicrap,T.P.、Hunt,J.J.、Pritzel,A.、Heess,N.、Erez,T.、Tassa,Y.、Silver,D.和Wierstra,D.(2015)。通过深度强化学习进行持续控制。arXiv:1509.02971。
[17] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.等人(2015)。通过深度强化学习进行人性化控制。《自然》,518(7540),529-533·doi:10.1038/nature14236
[18] Mnih,V.、Badia,A.P.、Mirza,M.、Graves,A.、Lillicrap,T.、Harley,T.,Silver,D.和Kavukcuoglu,K.(2016)深度强化学习的异步方法。在机器学习国际会议上,第1928-1937页。
[19] O’Donoghue,B.、Munos,R.、Kavukcuoglu,K.和Mnih,V.(2016)。PGQ:结合政策梯度和q学习。arXiv:1611.01626。
[20] Peters,J.和Schaal,S.(2008年)。自然因素至关重要。神经计算,71(7-9),1180-1190·doi:10.1016/j.neucom.2007.11.026
[21] Peters,J.、Mülling,K.和Altun,Y.(2010年)。相对熵策略搜索。在AAAI亚特兰大,第1607-1612页。
[22] Ross,S.、Pineau,J.、Paquet,S.和Chaib-Draa,B.(2008)。POMDP的在线规划算法。《人工智能研究杂志》,32,663-704·Zbl 1182.68265号 ·电话:10.1613/jair.2567
[23] Rubinstein,R.(1999)。用于组合和连续优化的交叉熵方法。应用概率的方法论与计算,1(2),127-190·兹伯利0941.65061 ·doi:10.1023/A:101091220143
[24] Schulman,J.、Levine,S.、Abbeel,P.、Jordan,M.和Moritz,P.(2015)。信托区域政策优化。《第32届机器学习国际会议论文集》(ICML-15),第1889-1897页。
[25] Schulman,J.、Wolski,F.、Dhariwal,P.、Radford,A.和Klimov,O.(2017)。近似策略优化算法。arXiv:1707.06347。
[26] Silver,D.、Lever,G、Heess,N.、Degres,T.、Wierstra,D.和Riedmiller,M.(2014)。确定性策略梯度算法。在ICML中。
[27] Sutton,R.S.、McAllester,D.、Singh,S.和Mansour,Y.(1999)。函数逼近强化学习的策略梯度方法。《第12届神经信息处理系统国际会议论文集》,麻省理工学院出版社,美国马萨诸塞州剑桥,NIPS’99,第1057-1063页。
[28] Tangkaratt,V.、Abdolmaleki,A.和Sugiyama,M.(2018年)。指导演员-连续控制关键。在学习代表国际会议(ICLR)的会议记录中。
[29] Wierstra,D.、Schaul,T.、Peters,J.和Schmidhuber,J.(2008)。自然进化战略。在IEEE进化计算大会上,IEEE,第3381-3387页·Zbl 1318.68159号
[30] Williams,R.J.(1992)。用于连接强化学习的简单统计梯度允许算法。机器学习,8(3-4),229-256·Zbl 0772.68076号
[31] Wu,Y.、Mansimov,E.、Grosse,R.B.、Liao,S.和Ba,J.(2017)。使用kronecker-factor近似进行深度强化学习的可扩展信任区域方法。《神经信息处理系统进展》,第5279-5288页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。