×

结合贝叶斯优化和李普希茨优化。 (英语) Zbl 1446.90129号

摘要:贝叶斯优化和李普希茨优化已经开发出优化黑盒函数的替代技术。他们利用了关于函数的不同形式的先验。在这项工作中,我们探索了将这些技术相结合的策略,以实现更好的全局优化。特别是,我们提出了在传统BO算法中使用Lipschitz连续性假设的方法,我们称之为Lipschits-Baysian优化(LBO)。这种方法不会增加渐近运行时,并且在某些情况下会显著提高性能(而在最坏的情况下,性能类似)。事实上,在特定的环境下,我们证明了与单独使用贝叶斯优化相比,Lipschitz信息在遗憾上产生了相同或更好的界限。此外,我们提出了一种简单的启发式方法来估计利普希茨常数,并证明了利普希兹常数的增长估计在某种意义上是“无害的”。我们在15个具有4个采集函数的数据集上的实验表明,在最坏的情况下,LBO的性能与底层BO方法相似,但在某些情况下,它的性能要好得多。特别是汤普森采样的情况通常会有显著改善(因为Lipschitz信息针对其著名的“过度探索”现象进行了校正),其LBO变体通常优于其他采集功能。

MSC公司:

90C26型 非凸规划,全局优化
90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahmed,M.O.、Shahriari,B.和Schmidt,M.(2016)。我们需要“无害”贝叶斯优化和“一阶”贝叶斯优化吗?在NIPS贝叶斯优化研讨会上。
[2] Bardenet,R.和Kégl,B.(2010年)。替代代理:使用混合交叉熵算法加速基于高斯过程的全局优化。在机器学习国际会议(ICML)上,Omnipress(第55-62页)。
[3] Bertsekas,DP,非线性规划(2016),剑桥:麻省理工学院,剑桥·Zbl 1360.90236号
[4] Bull,AD,高效全局优化算法的收敛速度,《机器学习研究杂志》,2011年10月12日,2879-2904·Zbl 1280.90094号
[5] Bunin,G.A.和François,G.(2016)。实验优化中的Lipschitz常数。arXiv预打印arXiv:1603.07847。
[6] Chapelle,O.和Li,L.(2011)。汤普森抽样的实证评估。《神经信息处理系统进展》(NIPS)(第2249-2257页)。
[7] Eric,B.、Freitas,N.D.和Ghosh,A.(2008年)。使用离散选择数据进行主动偏好学习。《神经信息处理系统进展》(NIPS)(第409-416页)。
[8] Falkner,S.、Klein,A.和Hutter,F.(2017年)。结合双曲线和贝叶斯优化。在NIPS贝叶斯优化研讨会上。
[9] Gardner,J.R.、Kusner,M.J.、Xu,Z.E.、Weinberger,K.Q.和Cunningham,J.P.(2014)。带不等式约束的贝叶斯优化。在机器学习国际会议(ICML)上(第937-945页)。
[10] Gelbart,M.A.、Snoek,J.和Adams,R.P.(2014)。具有未知约束的贝叶斯优化。arXiv预打印arXiv:1403.5607。
[11] 金斯堡,D。;勒里奇,R。;Carraro,L。;Tenne,Y。;Goh,CK,Kriging非常适合并行化优化,昂贵优化问题中的计算智能,131-162(2010),柏林:Springer,柏林·Zbl 1187.90020号
[12] Golovin,D.、Solnik,B.、Moitra,S.、Kochanski,G.、Karro,J.和Sculley,D.(2017年)。谷歌维齐尔:一项用于黑盒优化的服务。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第1487-1495页)。ACM公司。
[13] González,J.、Dai,Z.、Hennig,P.和Lawrence,N.(2016年)。通过局部惩罚进行批量贝叶斯优化。在人工智能和统计国际会议(AISTATS)上(第648-657页)。
[14] 亨德里克斯,EM;Boglárka,G.,《非线性和全局优化导论》(2010),柏林:施普林格出版社,柏林·Zbl 1193.90001号
[15] Hennig,P。;CJ Schuler,《信息效率全局优化的熵搜索》,《机器学习研究杂志》,1809-1837年6月13日(2012)·兹比尔1432.65073
[16] 埃尔南德斯·洛巴托,JM;马萨诸塞州盖尔巴特;亚当斯,RP;霍夫曼,MW;Ghahramani,Z.,《使用基于信息的搜索进行约束贝叶斯优化的一般框架》,《机器学习研究杂志》,17,1,5549-5601(2016)·Zbl 1391.90641号
[17] Hernández-Lobato,J.M.、Hoffman,M.W.和Ghahramani,Z.(2014)。预测熵搜索用于黑盒函数的有效全局优化。《神经信息处理系统进展》(NIPS)(第918-926页)。
[18] Hoffman,M.W.和Shahriari,B.(2014)。贝叶斯优化的模块化机制。在NIPS贝叶斯优化研讨会上(第1-5页)。
[19] Hutter,F.、Hoos,H.H.和Leyton-Brown,K.(2011年)。基于序列模型的通用算法配置优化。在学习和智能优化国际会议上(第507-523页)。斯普林格。
[20] Jamil,M。;Yang,XS,全球优化问题基准函数的文献综述,《国际数学建模与数值优化杂志》,4,2,150-194(2013)·Zbl 1280.65053号 ·doi:10.1504/IJMMNO.2013.055204
[21] Jones博士;Perttunen,CD;Stuckman,BE,无lipschitz常数的Lipschitzian优化,优化理论与应用杂志,79,1,157-181(1993)·Zbl 0796.49032号 ·doi:10.1007/BF00941892
[22] Jones博士;Schonlau,M。;Welch,WJ,昂贵黑盒函数的高效全局优化,《全局优化杂志》,13,4,455-492(1998)·Zbl 0917.90270号 ·doi:10.1023/A:1008306431147
[23] Kaelbling,有限合伙人;Lozano-Pérez,T。;Christensen,H。;Khatib,O.,《用于移动操作的信念空间中的图像前回链》,机器人研究,383-400(2017),查姆:斯普林格,查姆
[24] Kandasamy,K.、Krishnamurthy,A.、Schneider,J.和Poczos,B.(2017年)。通过thompson采样进行异步并行贝叶斯优化。arXiv预打印arXiv:1705.09236。
[25] Kim,J.和Choi,S.(2019年)。贝叶斯优化中捕获函数的局部优化器。arXiv预印arXiv:1901.08350。
[26] Kushner,HJ,在噪声存在下定位任意多峰值曲线最大点的新方法,基础工程杂志,86,1,97-106(1964)·数字对象标识代码:10.1115/1.3653121
[27] Li,L.、Jamieson,K.、DeSalvo,G.、Rostamizadeh,A.和Talwalkar,A.(2016)。高效的超参数优化和无限多的武装匪徒。arXiv预印本arXiv:1603.06560·Zbl 1468.68204号
[28] Lizotte,DJ;格雷纳,R。;Schuurmans,D.,响应面优化方法的实验方法,《全局优化杂志》,53,4,699-736(2012)·Zbl 1259.90102号 ·doi:10.1007/s10898-011-9732-z
[29] Mahendran,N.、Wang,Z.、Hamze,F.和De Freitas,N.(2012年)。贝叶斯优化的自适应MCMC。在人工智能和统计国际会议(AISTATS)上(第751-760页)。
[30] Malherbe,C.和Vayatis,N.(2017年)。lipschitz函数的全局优化。在澳大利亚悉尼举行的机器学习国际会议上,PMLR 70(第2314-2323页)。http://proceedings.mlr.press/v70/malherbe17a.html。
[31] Martinez-Cantin,R.、de Freitas,N.、Doucet,A.和Castellanos,J.A.(2007年)。不确定性下机器人规划和探索的主动策略学习。《机器人:科学与系统》(第3卷,第321-328页)·Zbl 1331.68227号
[32] Močkus,J.(1975年)。关于寻找极值的贝叶斯方法。优化技术IFIP技术会议(第400-404页)。斯普林格·Zbl 0311.90042号
[33] Pintér,JD,Global optimization in action(1996),多德雷赫特:施普林格,多德雷赫特·Zbl 0842.90110号
[34] Piyavskii,S.,找到函数绝对极值的算法,苏联计算数学和数学物理,12,4,57-67(1972)·Zbl 0282.65052号 ·doi:10.1016/0041-5553(72)90115-2
[35] Qin,C.、Klabjan,D.和Russo,D.(2017年)。改进预期的改进算法。《神经信息处理系统进展》(NIPS)(第5387-5397页)。
[36] 拉斯穆森,CE;Williams,CK,机器学习的高斯过程(2006),剑桥:麻省理工学院出版社,剑桥·Zbl 1177.68165号
[37] 里奥斯,LM;Sahinidis,NV,《无导数优化:算法综述和软件实现比较》,《全球优化杂志》,56,3,1247-1293(2013)·Zbl 1272.90116号 ·doi:10.1007/s10898-012-9951-y
[38] Shahriari,B。;瑞典斯威斯基。;王,Z。;亚当斯,RP;de Freitas,N.,《将人类从循环中解放出来:贝叶斯优化综述》,《IEEE学报》,104,1148-175(2016)·doi:10.1109/JPROC.2015.2494218
[39] Shahriari,B.、Wang,Z.、Hoffman,M.W.、Bouchard-Cóté,A.和de Freitas,N.(2014)。熵搜索组合。在NIPS贝叶斯优化研讨会上。
[40] 舒伯特,BO,求函数全局最大值的序贯方法,SIAM数值分析杂志,9,3,379-388(1972)·Zbl 0251.65052号 ·数字对象标识代码:10.1137/0709036
[41] Snoek,J.、Larochelle,H.、Adams,R.P.(2012)。机器学习算法的实用贝叶斯优化。神经信息处理系统进展·Zbl 1433.68379号
[42] Snoek,J.、Rippel,O.、Swersky,K.、Kiros,R.、Satish,N.、Sundaram,N.,Patwary,M.、Prabhat,M.和Adams,R..(2015)。使用深度神经网络的可伸缩贝叶斯优化。在国际机器学习会议(ICML)上(第2171-2180页)。
[43] Srinivas,N.、Krause,A.、Kakade,S.M.和Seeger,M.(2010年)。土匪背景下的高斯过程优化:无遗憾和实验设计。在机器学习国际会议(ICML)上(第1015-1022页)。
[44] Stein,ML,《空间数据插值:克里金的一些理论》(2012),柏林:施普林格出版社,柏林
[45] Sui,Y.、Gotovos,A.、Burdick,J.和Krause,A.(2015)。使用高斯过程进行优化的安全探索。在机器学习国际会议(ICML)上(第997-1005页)。
[46] WR汤普森,《鉴于两个样本的证据,一种未知概率超过另一种概率的可能性》,Biometrika,25,3-4,285-294(1933)·JFM 59.1159.03号文件 ·doi:10.2307/2332286
[47] 维尔蒙泰克斯,J。;巴斯克斯,E。;Walter,E.,《费用评估函数全局优化的信息方法》,《全局优化杂志》,44,4,509(2009)·Zbl 1180.90253号 ·doi:10.1007/s10898-008-9354-2
[48] Wang,J.、Clark,S.C.、Liu,E.和Frazier,P.I.(2016)。昂贵函数的并行贝叶斯全局优化。arXiv预打印arXiv:1602.05149·Zbl 1457.90118号
[49] Wang,Z.和Jegelka,S.(2017)。高效贝叶斯优化的最大值熵搜索。在国际机器学习会议(ICML)上。
[50] Wilson,J.、Hutter,F.和Deisenroth,M.(2018年)。最大化贝叶斯优化的捕获函数。在NIPS中(第9884-9895页)。
[51] Wu,J.、Poloczek,M.、Wilson,A.G.和Frazier,P.(2017)。带梯度的贝叶斯优化。《神经信息处理系统进展》(NIPS)(第5267-5278页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。