×

具有近似集核的贝叶斯优化。 (英语) 兹比尔07432823

摘要:我们提出了一种实用的集上贝叶斯优化方法,以最小化将集作为单个输入的黑盒函数。由于集合输入是置换不变的,传统的基于高斯过程的贝叶斯优化策略(假设向量输入)可能达不到要求。为了解决这个问题,我们开发了一种贝叶斯优化方法设置内核用于构建代理函数的。这个内核在集合元素上积累相似性,以强制执行置换方差,但这需要更大的计算成本。为了减少这一负担,我们提出了两个关键部分:(i)一个更有效的近似集核,它仍然是正定的,是子样本数方面方差为上界的真集核的无偏估计量,(ii)集上的约束捕获函数优化,它使用定义集合输入的可行域的对称性。最后,我们给出了几个数值实验,证明了我们的方法优于其他方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arthur,D.和Vassilvitskii,S.(2007)。k-means++:仔细播种的优点。《ACM-SIAM离散算法(SODA)研讨会论文集》,第1027-1035页。美国路易斯安那州新奥尔良·Zbl 1302.68273号
[2] Bergstra,J.、Bardenet,R.、Bengio,Y.和Kégl,B.(2011)。超参数优化算法。《神经信息处理系统进展》(NeurIPS),第24卷,第2546-2554页。西班牙格拉纳达。
[3] Brochu,E.、Cora,V.M.和de Freitas,N.(2010年)。昂贵成本函数的贝叶斯优化教程,应用于主动用户建模和分层强化学习。arXiv预打印arXiv:1012.2599
[4] Buathong,P.,Ginsbourger,D.,&Krityakierne,T.(2020)使用RKHS嵌入的有限集上的核,应用于贝叶斯(组合)优化。《人工智能和统计国际会议记录》,第2731-2741页。虚拟。
[5] 阿联酋登普斯特;新墨西哥州莱尔德;Rubin,DB,《通过EM算法从不完整数据中获取最大似然》,《皇家统计学会杂志》B,39,1-38(1977)·Zbl 0364.62022号
[6] Dua,D.和Graff,C.(2019年)。UCI机器学习库。http://archive.ics.uci.edu/ml
[7] Edwards,H.和Storkey,A.(2017年)。走向神经统计学家。在国际学习表征会议论文集(ICLR)中。法国土伦。
[8] 通用电气公司Fasshauer;McCourt,MM,《使用matlab的基于核的近似方法》(2015),新加坡:世界科学出版社,新加坡·Zbl 1318.00001号 ·数字对象标识代码:10.1142/9335
[9] Finn,C.、Abbeel,P.和Levine,S.(2017年)。用于快速适应深层网络的模型认知元学习。《机器学习国际会议论文集》,第1126-1135页。澳大利亚悉尼。
[10] Frazier,P.I.(2018)。贝叶斯优化教程。arXiv预打印arXiv:1807.02811
[11] Frazier,P.I.和Wang,J.(2016)。材料设计的贝叶斯优化。《材料发现与设计的信息科学》,第45-75页。斯普林格。
[12] Garnelo,M.、Rosenbaum,D.、Maddison,C.J.、Ramalho,T.、Saxton,D.、Shanahan,M.,Teh,Y.W.、Rezende,D.J.和Eslami,S.M.A.(2018年)。条件神经过程。《机器学习国际会议论文集》,第1690-1699页。瑞典斯德哥尔摩。
[13] Garnett,R.、Osborne,M.A.和Roberts,S.J.(2010年)。传感器集选择的贝叶斯优化。在ACM/IEEE传感器网络信息处理国际会议(IPSN)上,第209-219页。瑞典斯德哥尔摩。
[14] Gärtner,T.、Flach,P.A.、Kowalczyk,A.和Smola,A.J.(2002)。多功能内核。《机器学习国际会议论文集》,第179-186页。澳大利亚悉尼。
[15] Genton,MG,《机器学习的内核类:统计视角》,机器学习研究杂志,2299-312(2001)·Zbl 1037.68113号
[16] González,J.、Longworth,J.,James,D.C.和Lawrence,N.D.(2014)。合成基因设计的贝叶斯优化。在贝叶斯优化(BayesOpt)神经信息处理系统研讨会上。加拿大魁北克省蒙特利尔市。
[17] 格雷顿,A。;博格沃德,KM;拉什,MJ;Schölkopf,B。;Smola,AJ,《内核双样本测试》,《机器学习研究杂志》,13,723-773(2012)·Zbl 1283.62095号
[18] Haghanifar,S。;McCourt,M。;Cheng,B。;Wuenschell,J.等人。;Ohodnicki,P。;Leu,PW,《通过贝叶斯学习和优化,创造玻璃翅蝶式持久防雾超广角超透明纳米结构玻璃》,材料展望,6,8,1632-1642(2019)·doi:10.1039/C9MH00589G
[19] Hansen,N.(2016)。CMA进化策略:教程。arXiv预打印arXiv:1604.00772
[20] Haussler,D.(1999)。离散结构上的卷积核。技术代表:加州大学圣克鲁斯分校计算机科学系。
[21] Hutter,F.、Hoos,H.H.和Leyton-Brown,K.(2011年)。基于序列模型的通用算法配置优化。《学习与智能优化国际会议论文集》(LION),第507-523页。意大利罗马。
[22] Ioffe,S.和Szegedy,C.(2015)。批量归一化:通过减少内部协变量偏移来加速深度网络训练。《机器学习国际会议论文集》,第448-456页。法国里尔。
[23] Jones博士;珀顿,CD;Stuckman,BE,无利普希茨常数的利普希兹优化,优化理论与应用杂志,79,1,157-181(1993)·Zbl 0796.49032号 ·doi:10.1007/BF00941892
[24] Kandasamy,K.、Neiswanger,W.、Schneider,J.、Póczos,B.和Xing,E.P.(2018年)。具有贝叶斯优化和最优传输的神经架构搜索。《神经信息处理系统进展》(NeurIPS),第31卷,第2016-2025页。加拿大魁北克省蒙特利尔市。
[25] Kandasamy,K.、Schneider,J.和Póczos,B.(2015)。通过加性模型进行高维贝叶斯优化和强盗。《机器学习国际会议论文集》,第295-304页。法国里尔。
[26] Kim,J.、McCourt,M.、You,T.、Kim,S.和Choi,S.(2019年)。集合上的贝叶斯优化。在自动机器学习(AutoML)国际机器学习研讨会上。美国加利福尼亚州长滩。
[27] 刘,DC;Nocedal,J.,关于大规模优化的有限内存BFGS方法,数学规划,45,3,503-528(1989)·Zbl 0696.90048号 ·doi:10.1007/BF01589116
[28] Lloyd,SP,PCM中的最小二乘量化,IEEE信息理论汇刊,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.10109/TIT.1982.1056489
[29] Muandet,K。;Fukumizu,K。;Sriperumbudur,B。;Schölkopf,B.,Kernel mean embedding of distributions:A review and beyond,机器学习的基础和趋势,10,1-2,1-141(2017)·Zbl 1380.68336号 ·doi:10.1561/2200000060
[30] Paciorek,C.J.和Schervish,M.J.(2004)。高斯过程回归的非平稳协方差函数。《神经信息处理系统进展》(NeurIPS),第17卷,第273-280页。加拿大不列颠哥伦比亚省温哥华市。
[31] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;Weiss,R。;Dubourg,V.,Scikit-learn:机器学习在python中的应用,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[32] 佩罗内,V。;宾夕法尼亚州詹金斯;斯潘诺,D。;Teh,YW,动态特征模型的泊松随机场,机器学习研究杂志,18,1-45(2017)·Zbl 1442.62070号
[33] 拉斯穆森,CE;Williams,CKI,机器学习的高斯过程(2006),剑桥:麻省理工学院出版社,剑桥·Zbl 1177.68165号
[34] Schölkopf,B。;Smola,AJ,《用内核学习》(2002),剑桥:麻省理工学院出版社,剑桥·Zbl 1019.68094号
[35] 沙赫里亚里,B。;瑞典斯威斯基。;王,Z。;亚当斯,RP;de Freitas,N.,《让人类脱离循环:贝叶斯优化综述》,《IEEE学报》,104,1,148-175(2016)·doi:10.1109/JPROC.2015.2494218
[36] Snoek,J.、Larochelle,H.和Adams,R.P.(2012)。机器学习算法的实用贝叶斯优化。《神经信息处理系统进展》,第25卷,第2951-2959页。美国内华达州塔霍湖。
[37] Srinivas,N.、Krause,A.、Kakade,S.和Seeger,M.(2010年)。土匪背景下的高斯过程优化:无遗憾和实验设计。《机器学习国际会议论文集》,第1015-1022页。以色列海法。
[38] Wang,Z.、Shakibi,B.、Jin,L.和de Freitas,N.(2014)。贝叶斯多尺度乐观优化。《人工智能和统计国际会议论文集》,第1005-1014页。冰岛雷克雅未克。
[39] Ward,JH,优化目标函数的分层分组,美国统计协会杂志,58301236-244(1963)·doi:10.1080/01621459.1963.10500845
[40] Wu,Z.、Song,S.、Khosla,A.、Yu,F.、Zhang,L.、Tang,X.和Xiao,J.(2015)。3D ShapeNets:体积形状的深度表示。《IEEE计算机视觉和模式识别国际会议论文集》,第1912-1920页。美国马萨诸塞州波士顿。
[41] Zaheer,M.、Kottur,S.、Ravanbakhsh,S.,Poczos,B.、Salakhutdinov,R.R.和Smola,A.J.(2017)。深度设置。《神经信息处理系统进展》(NeurIPS),第30卷,第3391-3401页。美国加利福尼亚州长滩。
[42] Zhou,Q.、Park,J.和Koltun,V.(2018)。Open3D:用于3D数据处理的现代库。arXiv预打印arXiv:1801.09847
[43] Zoph,B.和Le,Q.V.(2017)。用强化学习进行神经结构搜索。在学习代表国际会议(ICLR)的会议记录中。法国土伦。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。