×

基于可缩放高斯过程的超参数优化传输代理。 (英语) Zbl 1457.68242号

摘要:算法选择和超参数优化是将机器学习应用于实际问题时必须处理的繁琐任务。基于序列模型的优化(SMBO)基于所谓的“代理模型”,已被用于实现更快、更直接的超参数优化。代理模型是一种机器学习回归模型,它在元级实例上进行训练,以便在给定超参数设置和数据集描述符的情况下,预测算法在特定数据集上的性能。例如,高斯过程是很好的代理模型,因为它们提供了标签上的概率分布。最近关于SMBO的工作还将元数据,即在其他数据集上观察到的超参数性能,纳入超参数优化过程。例如,这可以通过在所有可用的元知识实例上学习迁移代理模型来实现;然而,元信息量的增加会使高斯过程变得不可行,因为它们需要反演一个随实例数量增加而增加的大协方差矩阵。因此,我们不学习所有元数据上的联合代理模型,而是建议根据每个数据集的观测值学习单个代理模型,然后使用集成技术将所有代理组合为一个联合代理。最后的替代项是所有数据集特定替代项的加权和,再加上一个仅在目标观测值上学习的额外替代项。在我们的框架内,可以使用任何代理模型,并在这种情况下探索高斯过程。我们提出了两种不同的策略来查找集成中使用的权重:第一种是基于专家的概率乘积方法,第二种是基于核回归。此外,我们扩展了该框架,使用一种我们称为“传递捕获函数”的新技术,在相同的设置下直接估计捕获函数。在一个实证评估中,包括在两个公开可用的元数据集上与当前最新技术的比较,我们能够证明我们提出的方法不仅可以扩展到大型元数据,而且还可以找到更强的预测模型。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62G08号 非参数回归和分位数回归
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdulrahman,S.M.、Braddil,P.、van Rijn,J.N.和Vanschoren,J.(2018年)。通过引入运行时,使用平均排名和主动测试加速算法选择。在P.Braddil和C.Giraud-Carrier(编辑)中,元学习与算法选择专题.机器学习杂志107, 1 ·Zbl 1462.62138号
[2] Bardenet,R.、Brendel,M.、Kégl,B.和Sebag,M.(2013)合作超参数调整。第30届机器学习国际会议论文集(第199-207页)。2013年6月16日至21日,美国佐治亚州亚特兰大,ICML 2013。
[3] 伯格斯特拉,J;Bengio,Y,超参数优化的随机搜索,机器学习研究杂志,13,281-305,(2012)·Zbl 1283.68282号
[4] Braddil,P.、Giraud-Carrier,C.G.、Soares,C.和Villata,R.(2009年)。元学习——数据挖掘的应用。认知技术施普林格。https://doi.org/10.1007/978-3-540-73263-1。 ·Zbl 1173.68625号
[5] Cavazos,J.和O'Boyle,M.F.P.(2006年)。使用逻辑回归进行方法特定的动态编译。第21届ACM SIGPLAN面向对象编程、系统、语言和应用年会论文集(第229-240页)。OOPSLA 2006年10月22日至26日,美国俄勒冈州波特兰。
[6] Cawley,G.C.(2001)。基于自适应步长禁忌搜索的支持向量机模型选择。人工神经网络和遗传算法国际会议论文集. ·Zbl 1011.68030号
[7] 夏佩尔,O;Vapnik,V;Bengio,Y,小样本回归的模型选择,机器学习,48,9-23,(2002)·Zbl 0998.68114号 ·doi:10.1023/A:1013943418833
[8] Corani,G.、Benavoli,A.、Demsar,J.、Mangili,F.和Zaffalon,M.(2016)。通过贝叶斯层次模型对分类器进行统计比较。CoRR abs/1609.08905。http://arxiv.org/abs/1609.08905。 ·Zbl 1440.62241号
[9] Czogiel,I.、Luebke,K.和Weihs,C.(2006)。用于优化超参数的响应面方法。技术代表。https://eldorado.tu-dortmund.de/bitstream/2003/22205/1/tr09-06.pdf。
[10] de Souza,B.F.、de Carvalho,A.、Calvo,R.和Ishii,R.P.(2006)。基于粒子群优化的多类SVM模型选择。2006年第六届混合智能系统国际会议(第31-31页)。2006年,IEEE。
[11] 议员Deisenroth;Ng,JW,分布式高斯过程,国际机器学习会议(ICML),2,5,(2015)
[12] Demšar,J.(2006)。多个数据集上分类器的统计比较。机器学习研究杂志, \(7\), 1-30. 统一资源定位地址http://www.jmlr.org/papers/v7/demsar06a.html。 ·Zbl 1222.68184号
[13] Domhan,T.、Springenberg,J.T.和Hutter,F.(2015)。通过学习曲线外推加快深度神经网络的自动超参数优化。第二十四届国际人工智能联合会议记录(第3460-3468页)。IJCAI 2015,阿根廷布宜诺斯艾利斯,2015年7月25日至31日。
[14] Eggensperger,K.、Lindauer,M.、Hoos,H.H.、Hutter,F.和Leyton Brown,K.(2018)。通过基于模型的代理对算法配置过程进行有效的基准测试。在P.Braddil和C.Giraud-Carrier(编辑)中,元学习与算法选择专题.机器学习杂志107, 1. ·Zbl 1457.68341号
[15] Feurer,M.、Klein,A.、Eggensperger,K.、Springenberg,J.T.、Blum,M.和Hutter,F.(2015)。高效可靠的自动机器学习。神经信息处理系统进展,第28卷:2015年神经信息处理体系年会2015年12月7日至12日,加拿大魁北克省蒙特利尔(第2962-2970页)。http://papers.nips.cc/paper/5872-efficient-and-robust-automated-machine-learning。
[16] Feurer,M.、Springenberg,J.T.和Hutter,F.(2014)。使用元学习初始化超参数的贝叶斯优化。ECAI金属学习和算法选择研讨会(MetaSel)(第3-10页)。
[17] Feurer,M.、Springenberg,J.T.和Hutter,F.(2015)。通过元学习初始化贝叶斯超参数优化。第二十九届AAAI人工智能会议记录2015年1月25日至30日,美国德克萨斯州奥斯汀(第1128-1135页)。
[18] Foo,C.s.,Do,C.B.,&Ng,A.(2007年)。对数线性模型的高效多超参数学习。神经信息处理系统研究进展(第377-384页)。
[19] Friedman,M,《使用秩来避免方差分析中隐含的正态假设》,《美国统计协会杂志》,32,675-701,(1937)·doi:10.1080/01621459.1937.10503522
[20] 弗里德曼,M,《M排名问题重要性的替代测试比较》,《数理统计年鉴》,第11期,第86-92页,(1940年)·Zbl 0063.01455号 ·doi:10.1214/aoms/1177731944
[21] 弗里德里希斯,F;Igel,C,多SVM参数的进化调整,神经计算,64,107-117,(2005)·doi:10.1016/j.neucom.2004.11.022
[22] 弗里德里希斯,F;Igel,C,多svm参数的进化调整,神经计算,64,107-117,(2005)·doi:10.1016/j.neucom.2004.11.022
[23] 戈麦斯,TAF;普鲁登西奥,RBC;苏亚雷斯,C;罗西,ALD;Carvalho,ACPLF,结合元学习和搜索技术为支持向量机选择参数,神经计算,75,3-13,(2012)·doi:10.1016/j.neucom.2011.07.005
[24] 郭,XC;杨建华;吴,CG;王,CY;Liang,YC,基于粒子群优化的新型ls-svms超参数选择,神经计算,713211-3215,(2008)·doi:10.1016/j.neucom.2008.04.027
[25] Hinton,G.E.(1999)。专家产品。人工神经网络,1999年。ICANN 99。第九届国际会议(Conf.Publ.No.470)(第1卷,第1-6页)。IET。
[26] Hinton,G,《训练受限Boltzmann机器的实用指南》,Momentum,9926,(2010)
[27] Hoffman,M.D.、Shahraria,B.和de Freitas,N.(2014)。基于模型的盗贼优化中的相关性和预算约束及其在自动机器学习中的应用。第十七届人工智能和统计国际会议记录(第365-374页)。AISTATS 2014,冰岛雷克雅未克,2014年4月22日至25日。
[28] Holmes,G.、Donkin,A.和Witten,I.H.(1994)。韦卡:机器学习工作台。智能信息系统,1994年。1994年第二届澳大利亚和新西兰会议记录(第357-361页)。电气与电子工程师协会。
[29] Hutter,F.、Hoos,H.H.和Leyton-Brown,K.(2011年)。基于序列模型的通用算法配置优化。第五届学习与智能优化国际会议论文集2005年狮子座(第507-523页)。柏林,海德堡:施普林格。
[30] Jamieson,K.G.和Talwalkar,A.(2016年)。非随机最佳臂识别和超参数优化。第19届国际人工智能与统计会议记录(第240-248页)。AISTATS 2016,西班牙加的斯,2016年5月9日至11日。http://jmlr.org/proceedings/papers/v51/jamieson16.html
[31] Jones博士;Schonlau,M;Welch,WJ,《昂贵黑盒函数的高效全局优化》,《全局优化杂志》,第13期,第455-492页,(1998年)·Zbl 0917.90270号 ·doi:10.1023/A:1008306431147
[32] Kamel女士;恩赖特,WH;Ma,KS,ODEXPERT:初值ODE系统选择数值解算器的专家系统,ACM数学软件汇刊,19,44-62,(1993)·Zbl 0889.65074号 ·数字对象标识代码:10.1145/151271.151275
[33] Kanda,J.、Soares,C.、Hruschka,E.R.和de Carvalho,A.C.P.L.F.(2012)。一种元学习方法,使用基于mlp的标签排名为旅行推销员问题选择元神经。神经信息处理——第19届国际会议(第488-495页)。2012年ICONIP,卡塔尔多哈,2012年11月12日至15日,会议记录,第三部分。
[34] Kapoor,A.、Ahn,H.、Qi,Y.和Picard,R.W.(2005)。基于图的半监督分类的超参数和核学习。神经信息处理系统研究进展(第627-634页)。
[35] Keerthi,S.、Sindhwani,V.和Chapelle,O.(2007年)。一种基于梯度的SVM模型超参数自适应的有效方法。第二十届神经信息处理系统年会.加拿大温哥华
[36] Kendall,MG,等级相关性的一种新测量方法,生物统计学,3081-93,(1938)·Zbl 0019.13001号 ·doi:10.2307/2332226
[37] Larochelle,H.、Erhan,D.、Courville,A.、Bergstra,J.和Bengio,Y.(2007年)。对具有许多变化因素的问题的深层架构进行实证评估。第24届机器学习国际会议记录(第473-480页)。ACM公司。
[38] Leite,R.、Braddil,P.和Vanschoren,J.(2012)。选择带有主动测试的分类算法。模式识别中的机器学习和数据挖掘——第八届国际会议(第117-131页)。2012年7月13日至20日,德国柏林,MLDM 2012。诉讼程序。
[39] Lemke,C;Budka,M;Gabris,B,《元学习:趋势和技术调查》,《人工智能评论》,44117-130,(2015)·doi:10.1007/s10462-013-9406-y
[40] Li,L.、Jamieson,K.G.、DeSalvo,G.、Rostamizadeh,A.和Talwalkar,A.(2016)。高效的超参数优化和无限多的武装匪徒。CoRR公司abs/1603.06560. http://arxiv.org/abs/1603.06560。
[41] O·马龙;Moore,AW,《竞赛算法:懒惰学习者的模型选择》,《人工智能评论》,1193-225,(1997)·doi:10.1023/A:1006556606079
[42] Masada,T.、Fukagawa,D.、Takasu,A.、Hamada,T.,Shibata,Y.和Oguri,K.(2009)。贝叶斯局部趋势分析的动态超参数优化。第18届ACM信息和知识管理会议记录(第1831-1834页)。ACM公司。
[43] McQuarrie,A.D.和Tsai,C.L.(1998年)。回归和时间序列模型选择新加坡:世界科学·Zbl 0907.62095号 ·数字对象标识代码:10.1142/3573
[44] Michie,D.、Spiegelholter,D.J.、Taylor,C.C.和Campbell,J.(编辑)。(1994).机器学习、神经和统计分类新泽西州上鞍河:Ellis Horwood·Zbl 0827.68094号
[45] Nadaraya,EA,关于估计回归,概率理论及其应用,9,141-142,(1964)·Zbl 0136.40902号 ·doi:10.1137/1109020
[46] Nareyek,A.(2004年)。基于非平稳强化学习的搜索启发式选择(第523-544页)。马萨诸塞州波士顿:斯普林格。
[47] Nemenyi,P.(1962年)。无分布多重比较。生物计量学18, 263. 国际生物识别协会1441 I ST,NW,Suite 700,Washington,DC 20005-2210。
[48] Pfahringer,B.、Bensusan,H.和Giraud-Carrier,C.(2000)。通过标记各种学习算法的元学习。第十七届机器学习国际会议记录(第743-750页)。摩根·考夫曼。
[49] Rasmussen,C.E.和Williams,C.K.I.(2005)。机器学习的高斯过程(自适应计算和机器学习)马萨诸塞州剑桥:麻省理工学院出版社。
[50] Reif,M;沙法特,F;Dengel,A,分类器进化参数优化的元学习,机器学习,87,357-380,(2012)·doi:10.1007/s10994-012-5286-7
[51] Rendle,S.(2010)。保理机。数据挖掘(ICDM),2010年IEEE第十届国际会议(第995-1000页)。电气与电子工程师协会。
[52] 赖斯,JR,算法选择问题,计算机进展,15,65-118,(1976)·doi:10.1016/S0065-2458(08)60520-3
[53] Schilling,N.、Wistuba,M.和Schmidt-Thieme,L.(2016)。使用高斯过程专家的产品进行可缩放超参数优化。关于数据库中机器学习和知识发现的欧洲联合会议(第33-48页)。斯普林格。
[54] Schilling,N.、Wistuba,M.、Drumond,L.和Schmidt-Thieme,L.(2015)。基于分解多层感知器的超参数优化。数据库中的机器学习和知识发现欧洲会议。ECML PKDD 2015,葡萄牙波尔图,2015年9月7日至11日。诉讼,第二部分。
[55] 施耐德,P;贝尔,M;Hammer,B,概率原型模型中的超参数学习,神经计算,731117-1124,(2010)·doi:10.1016/j.neucom.2009.11.021
[56] Seeger,M.(2006)。大规模层次分类核方法的交叉验证优化。神经信息处理系统研究进展(第1233-1240页)。
[57] Smith-Miles,KA,《针对算法选择的元学习的跨学科观点》,ACM计算调查,41,6:1-6:25,(2009)·数字对象标识代码:10.1145/1456650.1456656
[58] Snoek,J.、Larochelle,H.和Adams,R.P.(2012)。机器学习算法的实用贝叶斯优化。神经信息处理系统的进展25:2012年第26届神经信息处理系统年会(第2960-2968页)。2012年12月3日至6日在美国内华达州塔霍湖举行的会议记录。
[59] Srinivas,N.、Krause,A.、Kakade,S.和Seeger,M.W.(2010年)。土匪背景下的高斯过程优化:无遗憾和实验设计。第27届机器学习国际会议(ICML-10)会议记录(第1015-1022页),2010年6月21日至24日,以色列海法。
[60] 孙,Q;Pfahringer,B,《基于元学习的算法排名的成对元规则》,机器学习,93,141-161,(2013)·Zbl 1293.68241号 ·doi:10.1007/s10994-013-5387-y
[61] Swersky,K.、Snoek,J.和Adams,R.P.(2013)。多任务贝叶斯优化。神经信息处理系统进展26:2013年第27届神经信息处理体系年会(第2004-2012页)。2013年12月5日至8日在美国内华达州塔霍湖举行的会议记录。
[62] Swersky,K.、Snoek,J.和Adams,R.P.(2014)。Freeze-thaw贝叶斯优化。计算研究库.arXiv:1406.3896。
[63] Thornton,C.、Hutter,F.、Hoos,H.H.和Leyton-Brown,K.(2013)。Auto-weka:分类算法的组合选择和超参数优化。第19届ACM SIGKDD知识发现和数据挖掘国际会议记录KDD’13(第847-855页)。美国纽约州纽约市ACM。https://doi.org/10.1145/2487575.2487629。
[64] Tsochantaridis,I.、Hofmann,T.、Joachims,T.和Altun,Y.(2004)。支持相互依赖和结构化输出空间的向量机学习。第二十一届机器学习国际会议论文集(第104页)。ACM公司·Zbl 1222.68321号
[65] 维拉尔塔,R;Drissi,Y,《元学习的视角与调查》,《人工智能评论》,第18期,第77-95页,(2002年)·doi:10.1023/A:1019956318069
[66] Wistuba,M.、Schilling,N.和Schmidt-Thieme,L.(2015)。学习超参数优化初始化的数据集相似性。2015年元学习和算法选择国际研讨会会议记录(第15-26页),葡萄牙波尔图,2015年9月7日。
[67] Wistuba,M.、Schilling,N.和Schmidt-Thieme,L.(2015)。学习超参数优化初始化。数据科学和高级分析国际会议2015年10月19日至21日,法国巴黎,DSAA 2015·Zbl 1457.68242号
[68] Wistuba,M.、Schilling,N.和Schmidt-Thieme,L.(2015)。顺序无模型超参数调谐。2015 IEEE数据挖掘国际会议(第1033-1038页)。ICDM 2015,美国新泽西州大西洋城,2015年11月14日至17日。https://doi.org/10.109/ICDM.2015.20 ·Zbl 1457.68242号
[69] Wistuba,M.、Schilling,N.和Schmidt-Thieme,L.(2016)。用于自动超参数优化的两阶段转移代理模型。关于数据库中机器学习和知识发现的欧洲联合会议(第199-214页)。斯普林格。
[70] 徐,L;Hutter,F;呼,HH;Leyton-Brown,K,Satzilla:基于组合的SAT算法选择,《人工智能研究杂志》(JAIR),32,565-606,(2008)·Zbl 1182.68272号
[71] Yogatama,D.和Mann,G.(2014)。用于超参数自动调谐的高效传递学习方法。人工智能和统计国际会议(AISTATS 2014).
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。