×

通过使用迭代发现的权重向量集进行多粒度下降的高效多目标强化学习。 (英语) Zbl 1497.68414号

摘要:解决多目标优化问题在各种应用程序中都很重要,在这些应用程序中,用户有兴趣获得受多个(但往往相互冲突)目标约束的最优策略。获得最优策略的一种典型方法是,首先基于单个目标的尺度化构造损失函数,然后导出最小化尺度化损失函数的最优策略。虽然简单有效,但由于缺乏量化目标间关系的能力,典型方法无法提供多目标优化的见解/机制。为了解决这个问题,我们建议开发一种新的高效的基于梯度的多目标强化学习方法,当一个目标对其他目标的影响未知时,通过在多个策略梯度集的凸包中找到一个最小范数点,寻求迭代地揭示定量的对象间关系先验的特别是,我们首先提出了一种新的PAOLS算法,该算法集成了剪枝和近似乐观线性支持算法,以有效地发现量化对象间关系的多重梯度的权重向量集。然后,我们构造了一个行动者和一个多目标批评家,他们可以共同学习策略和多目标向量值函数。最后,可以迭代执行权重发现过程、策略和向量值函数学习过程,以生成稳定的权重向量集和策略。为了验证所提方法的有效性,我们基于三个案例研究对该方法进行了定量评估。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90C29型 多目标规划
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abadi,M.、Barham,P.、Chen,J.、Cheng,Z.、Davis,A.、Dean,J.,Devin,M.,Ghemawat,S.、Irving,G.、Isard,M.等人(2016年)。Tensorflow:大规模机器学习系统。。InUSENIX操作系统设计与实现研讨会,第16卷,第265-283页。
[2] Abels,A.、Roijers,D.M.、Lenaerts,T.、Now´e,A.和Steckelmacher,D.(2018)。多目标深层强化学习中的动态权重。arXiv预印本arXiv:1809.07803。
[3] Babaeizadeh,M.、Frosio,I.、Tyree,S.、Clemons,J.和Kautz,J.(2016)。通过gpu上的异步优势actor-critic进行强化学习。arXiv预打印arXiv:1611.06256。
[4] Barrett,L.和Narayanan,S.(2008年)。学习具有多个标准的所有最优策略。机器学习国际会议,第41-47页。
[5] Brockman,G.、Cheung,V.、Pettersson,L.、Schneider,J.、Schulman,J.,Tang,J.和Zaremba,W.(2016)。Openai gym.arXiv预印本arXiv:1606.01540。
[6] D´esid´eri,J.-A.(2012)。用于多目标优化的多重梯度下降算法(MGDA)。Comptes Rendus Mathematique,350(5-6),313-318·Zbl 1241.65057号
[7] Dhariwal,P.、Hesse,C.、Klimov,O.、Nichol,A.、Plappert,M.、Radford,A.、Schulman,J.、Sidor,S.和Wu,Y.(2017年)。Openai基线。GitHub、GitHubRepository。
[8] Ehrgott,M.(1995年)。词典最大排序——多准则组合优化的解决方案概念。。
[9] Fliege,J.和Svaiter,B.F.(2000)。多准则优化的最速下降法。运筹学的数学方法,51(3),479-494·Zbl 1054.90067号
[10] Gordon,G.和Tibshirani,R.(2012)。卡鲁什-库恩-塔克条件。优化,10(725/36),725。
[11] Guo,X.、Singh,S.、Lee,H.、Lewis,R.L.和Wang,X.(2014)。使用离线Monte-Carlo树搜索规划进行实时Atari游戏深度学习。《神经信息处理系统研究进展》,第3338-3346页。
[12] Hosseinzade,E.和Hassanpour,H.(2011年)。区间值多目标规划问题的Karush-Kuhn-Tucker最优性条件。应用数学与信息学杂志,29(5 6),1157-1165·Zbl 1229.90179号
[13] Kingma,D.P.和Ba,J.(2014)。亚当:一种随机优化的方法。arXiv预印本arXiv:1412.6980。
[14] Konak,A.、Coit,D.W.和Smith,A.E.(2006年)。使用遗传算法的多目标优化:教程。可靠性工程与系统安全,91(9),992-1007。
[15] Lin,J.G.(2005)。关于多目标优化的min-norm和min-max方法。数学规划,103(1),1-33·Zbl 1079.90123号
[16] Liu,C.、Xu,X.和Hu,D.(2015)。多目标强化学习:综合概述。IEEE系统、人与控制论汇刊:系统,45(3),385-398。
[17] Maddison,C.J.、Huang,A.、Sutskever,I.和Silver,D.(2014)。使用深度卷积神经网络在围棋中进行移动评估。arXiv预印本arXiv:1412.6564。
[18] Mannor,S.和Shimkin,N.(2002年)。多标准强化学习的指导方法。《神经信息处理系统进展》,第1563-1570页。
[19] Mannor,S.和Shimkin,N.(2004年)。多准则强化学习的几何方法。机器学习研究杂志,5325-360·Zbl 1222.68256号
[20] Marbach,P.和Tsitsiklis,J.N.(2001年)。基于仿真的马尔可夫报酬过程优化。IEEE自动控制汇刊,46(2),191-209·兹比尔0992.93088
[21] Miettinen,K.,&M¨akel¨a,M.(1995年)。基于交互式捆绑的不可微多目标优化方法:Nimbus。优化,34(3),231-246·Zbl 0855.90114号
[22] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.、Graves,A.、Riedmiller,M.、Fidjeland,A.K.、Ostrovski,G.、Petersen,S.、Beattie,C.、Sadik,A.、Antonoglou,I.、King,H.、Kumaran,D.、Wierstra,D.、Legg,S.和Hassabis,D.(2015)。通过深度强化学习进行人性化控制。《自然》,518(7540),529。
[23] Mossalam,H.、Assael,Y.M.、Roijers,D.M.和Whiteson,S.(2016)。多目标深层强化学习。arXiv预印本arXiv:1610.02707。
[24] 具有习得的目标间关系的多目标强化学习
[25] Nair,A.,Srinivasan,P.,Blackwell,S.,Alcicek,C.,Fearon,R.,De Maria,A.,Panneershelvam,V.,Suleyman,M.,Beattie,C.,Petersen,S.等人(2015)。深层强化学习的大规模并行方法。arXiv预印本arXiv:1507.04296。
[26] Nakayama,H.、Yun,Y.和Yoon,M.(2009年)。使用计算智能的顺序近似多目标优化。施普林格科技与商业媒体·兹比尔1167.90002
[27] Nguyen,T.T.(2018)。多目标深度强化学习框架。arXiv预印本arXiv:1803.02965。
[28] Oh,J.、Guo,X.、Lee,H.、Lewis,R.L.和Singh,S.(2015)。Atari游戏中使用深度网络进行动作条件视频预测。《神经信息处理系统进展》,第2863-2871页。
[29] Pan,X.,You,Y.,Wang,Z.,&Lu,C.(2017)。用于自动驾驶的虚拟到真实强化学习。arXiv预印本arXiv:1704.03952。
[30] Parisi,S.、Pirotta,M.和Peters,J.(2017年)。基于流形的多目标策略搜索和样本重用。神经计算,263,3-14。
[31] Parisi,S.、Pirotta,M.和Restelli,M.(2016)。通过连续帕累托流形逼近实现多目标强化学习。《人工智能研究杂志》,57187-227·Zbl 1386.68137号
[32] Parisi,S.、Pirotta,M.、Smacchia,N.、Bascetta,L.和Restelli,M.(2014a)。多目标序贯决策的策略梯度方法。国际神经网络联合会议(IJCNN),第2323-2330页。
[33] Parisi,S.、Pirotta,M.、Smacchia,N.、Bascetta,L.和Restelli,M.(2014b)。多目标序贯决策的政策梯度方法:比较。IEEE自适应动态规划和强化学习研讨会(ADPRL),第1-8页。
[34] Peitz,S.和Dellnitz,M.(2016)。基于梯度的不确定性多目标优化。arXiv预打印arXiv:1612.03815。
[35] Pinder,J.(2016)。未知随机和不确定环境下的多目标强化学习框架。索尔福德大学博士论文。
[36] Pirotta,M.、Parisi,S.和Restelli,M.(2015)。连续帕累托前沿逼近的多目标强化学习。第二十届AAAI人工智能会议·Zbl 1386.68137号
[37] Poirion,F.、Mercier,Q.和D´esid´eri,J.-A.(2017)。非光滑随机多目标优化的下降算法。计算优化与应用,68(2),317-331·兹比尔1387.90237
[38] Rockafellar,R.T.和Wets,R.J.-B.(1991)。不确定性优化中的场景和策略聚合。运筹学数学,16(1),119-147·Zbl 0729.90067号
[39] Roijers,D.M.、Vamplew,P.、Whiteson,S.和Dazeley,R.(2013)。多目标序贯决策综述。《人工智能研究杂志》,48,67-113·Zbl 1364.68323号
[40] Roijers,D.M.、Whiteson,S.、Oliehoek,F.A.等人(2014a)。多目标协调图的线性支持。《自治代理和多代理系统国际会议》,第1297-1304页。
[41] Roijers,D.M.、Scharpff,J.、Spaan,M.T.、Oliehoek,F.A.、De Weerdt,M.和Whiteson,S.(2014b)。不确定性下线性多目标规划的有界逼近。在自动化规划和调度国际会议上,第262-270页。
[42] Roijers,D.M.、Whiteson,S.和Oliehoek,F.A.(2015)。计算凸覆盖集以实现更快的多目标协调。《人工智能研究杂志》,52399-443·Zbl 1327.68302号
[43] Schaul,T.、Quan,J.、Antonoglou,I.和Silver,D.(2015)。优先体验重播。arXiv预打印arXiv:1511.05952。
[44] Schulman,J.、Levine,S.、Abbeel,P.、Jordan,M.和Moritz,P.(2015a)。信托区域政策优化。在机器学习国际会议上,第1889-1897页。
[45] Schulman,J.、Moritz,P.、Levine,S.、Jordan,M.和Abbeel,P.(2015b)。使用广义优势估计的高维连续控制。arXiv预印arXiv:1506.02438。
[46] Schulman,J.、Wolski,F.、Dhariwal,P.、Radford,A.和Klimov,O.(2017)。近端策略优化算法。arXiv预印本arXiv:11707.06347。
[47] Sener,O.和Koltun,V.(2018年)。作为多目标优化的多任务学习。《神经信息处理系统进展》,第527-538页。
[48] Shelton,C.R.(2001)。多目标强化学习的重要性抽样。。
[49] Silver,D.、Huang,A.、Maddison,C.J.、Guez,A.、Sifre,L.、Van Den Driessche,G.、Schrittwieser,J.、Antonoglou,I.、Panneershelvam,V.、Lanctot,M.、Dieleman,S.、Grewe,D.、Nham,J..、Kalchbrenner,N.、Sutskever,I.,Lillicrap,T.、Leach,M.,Kavukcuoglu,K.、Graepel,T.和Hassabis,D.(2016)。通过深度神经网络和树搜索掌握围棋游戏。《自然》,529(7587),484。
[50] Silver,D.、Hubert,T.、Schrittwieser,J.、Antonoglou,I.、Lai,M.、Guez,A.、Lanctot,M.,Sifre,L.、Kumaran,D.、Graepel,T.和Lillicrap,T.,Simonyan,K.和Hassabis,D.(2018年)。一种通用的强化学习算法,通过自我游戏掌握国际象棋、将棋和围棋。科学,362(6419),1140-1144·Zbl 1433.68320号
[51] Spall,J.C.(1992)。使用同时扰动梯度近似的多元随机近似。IEEE自动控制汇刊,37(3),332-341·Zbl 0745.60110号
[52] Sutton,R.S.和Barto,A.G.(2018年)。强化学习:简介。麻省理工学院出版社·Zbl 1407.68009号
[53] Tajmajer,T.(2018)。具有决策值的模块化多目标深度强化学习。2018年计算机科学和信息系统联合会议,第85-93页。
[54] Tesauro,G.、Das,R.、Chan,H.、Kephart,J.、Levine,D.、Rawson,F.和Lefurgy,C.(2008)。使用强化学习管理计算系统的功耗和性能。《神经信息处理系统进展》,第1497-1504页。
[55] Todorov,E.、Erez,T.和Tassa,Y.(2012年)。Mujoco:基于模型控制的物理引擎。在智能机器人和系统国际会议上,第5026-5033页。
[56] 利用学习到的对象间关系进行多目标强化学习
[57] Tsitsiklis,J.N.和Van Roy,B.(1999)。平均成本时间差异学习。自动化,35(11),1799-1808·Zbl 0932.93085号
[58] Uchibe,E.和Doya,K.(2007年)。从内在和外在奖励中进行受限强化学习。第六届IEEE国际发展与学习会议,第163-168页·Zbl 1254.68267号
[59] Vamplew,P.、Dazeley,R.、Berry,A.、Issabekov,R.和Dekker,E.(2011年)。多目标强化学习算法的实证评价方法。机器学习,84(1-2),51-80。
[60] Vamplew,P.、Dazeley,R.和Foale,C.(2017年)。多目标强化学习的Softmax探索策略。神经计算,26374-86。
[61] Vamvoudakis,K.G.和Lewis,F.L.(2010年)。在线actor-critic算法求解连续时间无限时域最优控制问题。自动化,46(5),878-888·Zbl 1191.49038号
[62] Van Hasselt,H.、Guez,A.和Silver,D.(2016年)。双q学习的深度强化学习。。第三十届AAAI人工智能会议,第2卷,第5页。
[63] Van Moffaert,K.、Drugan,M.M.和Now´e,A.(2013年)。规模化多目标强化学习:新型设计技术。。2013年IEEE自适应动态规划和强化学习研讨会,第191-199页。
[64] Van Moffaert,K.和Now´e,A.(2014年)。使用帕累托支配策略集的多目标强化学习。机器学习研究杂志,15(1),3483-3512。
[65] Wang,Z.、Schaul,T.、Hessel,M.、Van Hasselt,H.、Lanctot,M.和De Freitas,N.(2016)。深入强化学习的决斗网络架构。在国际机器学习会议上,第1995-2003页。
[66] Ward,D.和Lee,G.(2001年)。向量优化问题的广义适当有效解。运筹学的数学方法,53(2),215-232·Zbl 1031.90039号
[67] Yang,R.、Sun,X.和Narasimhan,K.(2019年)。一种多目标强化学习和策略自适应的广义算法。神经信息处理系统进展,第14636-14647页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。