×

学习掌握非线性内部点方法。 (英语) Zbl 1437.90148号

概要:内部点或屏障方法通过依次求解屏障子程序和屏障参数的递减序列来处理非线性程序。特定障碍更新规则对理论收敛性和实际效率有很大影响。虽然许多全局和局部收敛分析都考虑单调更新,以减少每个近似求解的子程序的障碍参数,但计算研究表明,更具自适应性的策略具有更好的性能。在本文中,我们将自适应屏障更新解释为一个强化学习任务。通过模仿和随机动作选择训练深度Q学习代理。基于非线性规划求解器WORHP中的一个实现的数值结果表明,代理成功地学习控制屏障参数,并进一步提高了WORHP在CUTEst测试集上的性能。

MSC公司:

90立方 非线性规划
68T05型 人工智能中的学习和自适应系统
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动、学习理论、工业过程等)上的应用
90摄氏51度 内部点方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.阿巴迪。;巴勒姆,P。;陈,J。;陈,Z。;A.戴维斯。;迪安·J。;德文,M。;Ghemawat,S。;欧文,G。;Isard,M。;等。,Tensorflow:大型机器学习系统,OSDI,16,265-283(2016)
[2] 阿尔芒,P。;Benoist,J.,非线性规划原对偶方法的局部收敛性,数学程序,115,199-222(2008)·Zbl 1167.65031号 ·文件编号:10.1007/s10107-007-0136-2
[3] 阿尔芒,P。;Benoist,J。;Orban,D.,非线性规划原对偶方法中屏障参数的动态更新,计算优化应用,41,1-25(2008)·Zbl 1180.90305号 ·doi:10.1007/s10589-007-9095-z
[4] Armand P,Orban D,Benoist J(2008b)非线性规划原对偶方法的全局收敛性。致:利摩日大学XLIM实验室技术报告·Zbl 1180.90305号
[5] 奥尔,P。;塞萨·比安奇,N。;Fischer,P.,《多武装匪徒问题的有限时间分析》,《马赫·学习》,第47期,第235-256页(2002年)·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[6] Balcan MF、Dick T、Sandholm T、Vitercik E(2018)《学习分支机构》。arXiv预打印arXiv:1803.10150
[7] 伯德,RH;刘,G。;Nocedal,J.,关于非线性规划内点方法的局部行为,数值分析,1997,37-56(1997)·Zbl 0902.65021号
[8] 克里斯托夫·比斯肯斯;Dennis Wassel,ESA NLP Solver WORHP,85-110(2012),纽约州纽约市·Zbl 1365.90007号
[9] Chen SY,Yu Y,Da Q,Tan J,Huang HK,Tang HH(2018)《在动态环境中稳定强化学习并应用于在线推荐》。摘自:第24届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’18,第1187-1196页。美国纽约州纽约市ACM。https://doi.org/10.1145/3219819.3220122
[10] Curtis,FE,非线性约束优化的罚内点算法,数学程序计算,4181-209(2012)·Zbl 1269.49045号 ·doi:10.1007/s12532-012-0041-4
[11] Dolan,ED;Moré,JJ,《带性能曲线的基准优化软件》,《数学程序》,91,201-213(2002)·邮编:1049.90004 ·doi:10.1007/s101070100263
[12] 埃尔巴克利,AS;塔皮亚,RA;Tsuchiya,T。;张毅,关于非线性规划牛顿内点法的公式和理论,《最优化理论应用》,89,507-541(1996)·Zbl 0851.90115号 ·doi:10.1007/BF02275347
[13] Fiacco AV,McCormick GP(1990)《非线性规划:序列无约束最小化技术》,第4卷。暹罗·兹比尔0713.90043
[14] Forsgren,A。;吉尔,体育;Wright,MH,非线性优化的内部方法,SIAM Rev,44,525-597(2002)·Zbl 1028.90060号 ·doi:10.1137/S0036144502414942
[15] Geffken S,Büskens C(2016)WORHP多核接口,NLP解算器的并行方法。摘自:第六届国际天体动力学工具和技术会议记录,德国达姆施塔特
[16] 格茨,EM;Wright,SJ,面向对象的二次规划软件,ACM Trans Math Softw,29,58-81(2003)·Zbl 1068.90586号 ·doi:10.1145/641876.641880
[17] J.Gondzio。;Grothe,A.,基于灵敏度分析的热启动内点方法的新解锁技术,SIAM J Optim,191184-1210(2008)·Zbl 1177.90411号 ·doi:10.1137/060678129
[18] 古尔德,NIM;Orban,D。;Toint,PL,CUTEst:一个有约束和无约束的测试环境,具有用于数学优化的安全线程,Comput Optim Appl,60,545-557(2015)·Zbl 1325.90004号 ·doi:10.1007/s10589-014-9687-3
[19] Gould NIM,Toint PL(2006),非线性规划非单调信赖域滤波算法的全局收敛性,第125-150页。美国马萨诸塞州波士顿斯普林格。https://doi.org/10.1007/0-387-29550-X_5 ·Zbl 1130.90399号
[20] Hausknecht M,Stone P(2015),部分可观测MDP的深度重复q-学习。In:AAAI秋季智能代理顺序决策研讨会
[21] Hendel G、Miltenberger M、Witzig J(2018)《使用盗贼算法求解混合整数程序的自适应算法行为》。收录:技术报告,第18-36页,邮政编码
[22] Hoos,Holger H.,《自动算法配置和参数调整》,37-71(2011),柏林,海德堡·doi:10.1007/978-3-642-21434-93
[23] Hutter,F。;箍,HH;莱顿-布朗,K。;Lodi,A.(编辑);Milano,M.(编辑);Toth,P.(编辑),混合整数编程求解器的自动配置,186-202(2010),柏林·doi:10.1007/978-3-642-13520-023
[24] Kadioglu S,Malitsky Y,Sellmann M,Tierney K(2010)ISAC-实例特定算法配置。摘自:2010年ECAI会议记录:第19届欧洲人工智能会议,第751-756页。阿姆斯特丹IOS出版社
[25] Kaelbling,有限合伙人;利特曼,ML;Cassandra,AR,《部分可观测随机域中的规划和行动》,Artif Intell,101,99-134(1998)·Zbl 0908.68165号 ·doi:10.1016/S0004-3702(98)00023-X
[26] Khalil EB,Le Bodic P,Song L,Nemhauser G,Dilkina B(2016)混合整数规划中的分支学习。参加:第30届AAAI人工智能会议
[27] Kingma DP,Ba J(2014)Adam:一种随机优化方法。arXiv预打印arXiv:1412.6980
[28] 马库斯·克鲁伯(Markus Kruber);吕培克,马可·E。;Parmentier,Axel,《学习何时使用分解》,202-210(2017),Cham·Zbl 1489.68253号 ·doi:10.1007/978-3-319-59776-8_16
[29] Kuhlmann R(2018)非线性规划的原对偶增广拉格朗日罚内点算法。不来梅大学博士论文·Zbl 1394.49025号
[30] Kuhlmann,R。;Büskens,C.,《一种原始-对偶增广拉格朗日罚内点滤波线搜索算法》,《数学方法与Oper Res》,87,451-483(2018)·Zbl 1394.49025号 ·doi:10.1007/s00186-017-0625-x
[31] Lillicrap TP、Hunt JJ、Pritzel A、Heess N、Erez T、Tassa Y、Silver D、Wierstra D(2015)《持续控制与深度强化学习》。arXiv预打印arXiv:1509.02971
[32] Lodi,A。;Zarpellon,G.,《关于学习和分支:一项调查》,TOP,25207-236(2017)·Zbl 1372.90003号 ·doi:10.1007/s11750-017-0451-6
[33] Mehrotra,S.,《关于原对偶内点方法的实现》,SIAM J Optim,2575-601(1992)·Zbl 0773.90047号 ·doi:10.1137/0802028年
[34] Mittelmann H.优化软件基准。http://plato.asu.edu/ftp/ampl-nlp.html。访问日期:2019年4月15日
[35] Mnih V、Kavukcuoglu K、Silver D、Graves A、Antonoglou I、Wierstra D、Riedmiller M(2013)《使用深度强化学习演奏atari》。arXiv预打印arXiv:1312.5602
[36] 何塞·路易斯·莫拉莱斯(JoséLuis Morales);豪尔赫·诺塞达尔;理查德·A·华尔兹。;刘,光辉;Goux,Jean-Pierre,《评估非线性优化内部方法的潜力》,167-183(2003),柏林,海德堡·Zbl 1062.65063号 ·文件编号:10.1007/978-3-642-55508-4_10
[37] Nocedal,J。;瓦希特,A。;Waltz,RA,非线性内部方法的自适应屏障更新策略,SIAM J Optim,191674-1693(2009)·Zbl 1176.49036号 ·doi:10.1137/060649513
[38] Baltean-Lugojan Radu,Bonami-Pierre,Misener R,Tramontani A(2018)通过训练的神经网络为二次半定外逼近选择切割平面。In:伦敦帝国理工学院技术报告
[39] Schulman J、Wolski F、Dhariwal P、Radford A、Klimov O(2017)近似策略优化算法。arXiv预打印arXiv:1707.06347
[40] 沈,C。;Leyffer,S。;Fletcher,R.,非线性优化的非单调滤波方法,计算优化应用,52,583-607(2011)·Zbl 1259.90140号 ·doi:10.1007/s10589-011-9430-2
[41] Sutton RS,Barto AG(1998)《强化学习:导论》。麻省理工学院出版社,剑桥
[42] 山雀,AL;瓦希特,A。;巴赫蒂亚里,S。;城市,TJ;Lawrence,CT,非线性规划的一种具有强全局和局部收敛性的原对偶内点方法,SIAM J Optim,14,173-199(2003)·Zbl 1075.90078号 ·doi:10.1137/S1052623401392123
[43] Ulbrich,M。;乌尔布里奇,S。;Vicente,NL,非线性规划的全局收敛原对偶内点滤波方法,数学程序,100379-410(2004)·Zbl 1070.90110号 ·文件编号:10.1007/s10107-003-0477-4
[44] 范德贝,RJ;Shanno,DF,非凸非线性规划的内点算法,计算优化应用,13,231-252(1999)·Zbl 1040.90564号 ·doi:10.1023/A:1008677427361
[45] 华尔兹·R。;莫拉莱斯,J。;Nocedal,J。;Orban,D.,结合线搜索和信赖域步骤的非线性优化内部算法,数学程序,107,391-408(2006)·Zbl 1134.90053号 ·doi:10.1007/s10107-004-0560-5
[46] Wang Z、Schaul T、Hessel M、Van Hasselt H、Lanctot M、De Freitas N(2015)《深度强化学习的决斗网络架构》。arXiv预打印arXiv:1511.06581
[47] 沃特金斯,CJCH;Dayan,P.,Q-learning,Mach-Learn,8,279-292(1992)·Zbl 0773.68062号 ·doi:10.1007/BF00992698
[48] 瓦希特,A。;Biegler,LT,关于大规模非线性规划的原对偶内点滤波线搜索算法的实现,数学程序,106,25-57(2006)·兹比尔1134.90542 ·doi:10.1007/s10107-004-0559-y
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。