×

超波段:一种基于强盗的超参数优化新方法。 (英语) Zbl 1468.68204号

总结:机器学习算法的性能关键取决于识别一组好的超参数。虽然最近的方法使用贝叶斯优化来自适应地选择配置,但我们侧重于通过自适应资源分配和提前停止来加快随机搜索。我们将超参数优化描述为一个纯探索的非随机无限武装盗贼问题,其中将预定义的资源(如迭代、数据样本或特征)分配给随机采样的配置。我们引入了一种新的算法,超波段并对其理论性质进行了分析,提供了一些理想的保证。此外,我们比较了超波段用流行的贝叶斯优化方法研究了一组超参数优化问题。我们观察到超波段在各种深度学习和基于内核的学习问题上,可以比我们的竞争对手提供超过一个数量级的加速。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
68T05型 人工智能中的学习和自适应系统
68T07型 人工神经网络与深度学习
68周27 在线算法;流式算法
90 C59 数学规划中的近似方法和启发式
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] A.Agarwal、J.Duchi、P.L.Bartlett和C.Levrard。Oracle计算预算模型选择的不平等。2011年学习理论会议(COLT)。
[2] A.Agarwal、S.Kakade、N.Karampatziakis、L.Song和G.Valiant。回归最小二乘法:多类预测的可缩放方法。在2014年国际机器学习会议(ICML)上,第541-549页。
[3] J.Bergstra和Y.Bengio。超参数优化的随机搜索。机器学习研究杂志,13:281-3052012·兹比尔1283.68282
[4] J.Bergstra、R.Bardenet、Y.Bengio和B.Kegl。超参数优化算法。神经信息处理系统(NIPS),2011年。
[5] S.Bubeck、R.Munos和G.Stoltz。多武装匪徒问题的纯粹探索。在2009年国际算法学习理论会议上·Zbl 1262.68061号
[6] S.Bubeck、R.Munos、G.Stoltz和C.Szepesvari。X武装匪徒。机器学习研究杂志,12:1655–16952011年·Zbl 1280.91038号
[7] A.Carpentier和M.Valko。为无数武装匪徒感到遗憾。在2015年国际机器学习会议(ICML)上。
[8] E.Contal、V.Perchet和N.Vayatis。具有互信息的高斯过程优化。在2014年国际机器学习会议(ICML)上。
[9] T.Domhan、J.T.Springenberg和F.Hutter。通过学习曲线外推加快深度神经网络的自动超参数优化。在2015年国际人工智能联合会议(IJCAI)上。
[10] K.Eggensperger等人。评估超参数贝叶斯优化的经验基础。神经信息处理系统(NIPS)贝叶斯优化研讨会,2013年。
[11] E.Even-Dar、S.Mannor和Y.Mansour。针对多武装土匪的行动消除和制止条件以及强化学习问题。机器学习研究杂志,7:1079–11052006·Zbl 1222.68195号
[12] M.费勒。个人通信,2015年。
[13] M.Feurer、J.Springenberg和F.Hutter。使用元学习初始化超参数的贝叶斯优化。2014年,在ECAI Meta-Learning and Algorithm Selection研讨会上。
[14] M.Feurer、A.Klein、K.Eggensperger、J.Springenberg、M.Blum和F.Hutter。高效可靠的自动机器学习。神经信息处理系统(NIPS),2015年。49
[15] D.Golovin、B.Sonik、S.Moitra、G.Kochanski、J.Karro和D.Sculley。GoogleVizier:一种用于黑盒优化的服务。知识发现和数据挖掘(KDD),2017年。
[16] S.Gr¨unew¨alder、J.Audibert、M.Opper和J.Shawe–Taylor。高斯进程强盗问题的遗憾边界。在2010年国际人工智能和统计会议(AISTATS)上。
[17] A.Gy¨orgy和L.Kocsis。用于本地搜索算法的高效多启动策略。《人工智能研究杂志》,41:407–4442011年·Zbl 1223.68106号
[18] F.Hutter、H.Hoos和K.Leyton-Brown。基于序列模型的通用算法配置优化。在2011年国际学习与智能优化会议(LION)上。
[19] K.Jamieson和R.Nowak。固定置信度下多武装盗贼的最佳臂识别算法。信息科学与系统会议(CISS),第1-6页。IEEE,2014年。
[20] K.Jamieson和A.Talwalkar。非随机最佳臂识别和超参数优化。在2015年国际人工智能与统计会议(AISTATS)上。
[21] K.Jamieson、M.Malloy、R.Nowak和S.Bubeck。lil'UCB:一种针对多武装匪徒的优化搜索算法。学习理论会议(COLT),第423-439页,2014年。
[22] K.G.Jamieson、D.Haas和B.Recht。适应性在识别统计备选方案中的作用。神经信息处理系统(NIPS),第775-783页,2016年。
[23] K.Kandasamy、J.Schneider和B.P´oczos。通过加性模型进行高维贝叶斯优化和强盗。在2015年国际机器学习会议(ICML)上。
[24] K.Kandasamy、G.Dasarathy、J.B.Oliva、J.G.Schneider和B.P´oczos。具有高保真度评估的高斯过程土匪优化。神经信息处理系统(NIPS),2016年。
[25] K.Kandasamy、G.Dasarathy、J.Schneider和B.P´oczos。连续逼近的多精度贝叶斯优化。在2017年国际机器学习会议(ICML)上。
[26] Z.Karnin、T.Koren和O.Somekh。多武装匪徒的几乎最优探索。在2013年国际机器学习会议(ICML)上。
[27] E.Kaufmann、O.Capp´E和A.Garivier。多武装盗贼模型中最佳武器识别的复杂性。机器学习研究杂志,16:1–422015·Zbl 1360.62433号
[28] A.Klein、S.Falkner、S.Bartels、P.Hennig和F.Hutter。大数据集机器学习超参数的快速贝叶斯优化。国际人工智能与统计会议(AISTATS),2017a。50 ·Zbl 1421.62027号
[29] A.Klein、S.Falkner、J.T.Springenberg和F.Hutter。贝叶斯神经网络学习曲线预测。在国际学习代表大会(ICLR)上,2017b。
[30] A.克里日夫斯基。从微小图像中学习多层特征。多伦多大学计算机科学系技术报告,2009年。
[31] T.Krueger、D.Panknin和M.Braun。通过顺序测试快速交叉验证。机器学习研究杂志,16:1103–11552015·Zbl 1351.62099号
[32] H.Larochelle等人。对具有许多变化因素的问题的深层架构的经验评估。在2007年国际机器学习会议(ICML)上。
[33] L.Li、K.Jamieson、G.DeSalvo、A.Rostamizadeh和A.Talwalkar。超波段:基于波段的超参数优化配置评估。在2017年国际学习代表大会(ICLR)上。
[34] O.Maron和A.Moore。竞赛算法:懒惰学习者的模型选择。《人工智能评论》,11:193-2251997年。
[35] V.Mnih和J.-Y.Audibert。经验伯恩斯坦停止。在2008年国际机器学习会议(ICML)上。
[36] Y.Netzer等人。使用无监督特征学习读取自然图像中的数字。2011年神经信息处理系统(NIPS)深度学习和无监督特征学习研讨会。
[37] A.Rahimi和B.Recht。大型内核机的随机特性。在神经信息处理系统(NIPS)中,2007年。
[38] R.Rifkin和A.Klautau。为一对一分类辩护。机器学习研究杂志,5:101-1412004·Zbl 1222.68287号
[39] P.Sermanet、S.Chintala和Y.LeCun。卷积神经网络在门牌号数字分类中的应用。在2012年国际模式识别会议(ICPR)上。
[40] J.Snoek、H.Larochelle和R.Adams。机器学习算法的实用贝叶斯优化。神经信息处理系统(NIPS),2012年·Zbl 1433.68379号
[41] J.Snoek、O.Rippel、K.Swersky、R.Kiros、N.Satish、N.Sundaram、M.Patwary、Prabhat和R.Adamst。使用深度神经网络的可伸缩贝叶斯优化。在国际机器学习会议(ICML)上,2015年a。
[42] J.Snoek、O.Rippel、K.Swersky、R.Kiros、N.Satish、N.Sundaram、M.Patwary、M.Prabhat和R.Adams。使用深度神经网络的贝叶斯优化。在国际机器学习会议(ICML)上,2015年b。
[43] E.Sparks、A.Talwalkar、D.Haas、M.J.Franklin、M.I.Jordan和T.Kraska。自动化模型搜索以实现大规模机器学习,。2015年ACM云计算研讨会(SOCC)。51
[44] J.Springenberg、A.Klein、S.Falkner和F.Hutter。稳健贝叶斯神经网络的贝叶斯优化。神经信息处理系统(NIPS),2016年。
[45] N.Srinivas、A.Krause、M.Seeger和S.M.Kakade。土匪背景下的高斯过程优化:无遗憾和实验设计。在2010年国际机器学习会议(ICML)上·Zbl 1365.94131号
[46] K.Swersky、J.Snoek和R.Adams。多任务贝叶斯优化。在神经信息处理系统(NIPS)中,2013年。
[47] K.Swersky、J.Snoek和R.P.Adams。冻融贝叶斯优化。arXiv预印arXiv:1406.38962014。
[48] C.Thornton等人。Auto-weka:分类算法的组合选择和超参数优化。知识发现和数据挖掘(KDD),2013年。
[49] A.van der Vaart和H.van Zanten。非参数高斯过程方法的信息率。机器学习研究杂志,12:2095–21192011·Zbl 1280.68228号
[50] Z.Wang、M.Zoghi、F.Hutter、D.Matheson和N.de Freitas。通过随机嵌入实现高维贝叶斯优化。在2013年国际人工智能联合会议(IJCAI)上·Zbl 1358.90089号
[51] Z.Wang、B.Zhou和S.Jegelka。优化是在强盗环境中使用高斯过程进行估计。在2016年国际人工智能与统计会议(AISTATS)上。
[52] A.G.Wilson、C.Dann和H.Nickisch。关于大规模可伸缩高斯过程的思考。arXiv:1511.018702015年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。