×

深度学习中超参数的目标敏感性分析。 (英语) Zbl 07698881号

摘要:用神经网络解决新的机器学习问题总是意味着优化许多定义其结构并强烈影响其性能的超参数。在这项工作中,我们研究了基于Hilbert-Schmidt独立准则(HSIC)的面向目标的灵敏度分析在超参数分析和优化中的应用。超参数通常位于复杂而笨拙的空间中。它们可以具有不同的性质(分类、离散、布尔、连续),相互作用,并具有相互依赖性。所有这些都使得进行经典敏感性分析变得非常重要。我们减轻了这些困难,以获得一个稳健的分析指标,该指标能够量化超参数对神经网络最终误差的相对影响。这个有价值的工具使我们能够更好地理解超参数,并使超参数优化更容易解释。我们在超参数优化的背景下说明了这一知识的好处,并导出了一种基于HSIC的优化算法,该算法适用于经典机器学习数据集MNIST和Cifar,也适用于科学机器学习感兴趣的龙格函数和贝特曼方程解的近似。这种方法产生了既有竞争力又具有成本效益的神经网络。

MSC公司:

62赫兹 多元分析
68泰克 人工智能
62Gxx公司 非参数推理
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Goodfellow,I.、Bengio,Y.、Courville,A.:深度学习(2016)。http://www.deeplearningbook.org ·Zbl 1373.68009号
[2] Gretton,A.,Bousquet,O.,Smola,A.,Schölkopf,B.:使用Hilbert-Schmidt规范测量统计相关性。摘自:第16届算法学习理论国际会议论文集。ALT'05,第63-77页。施普林格,柏林,海德堡(2005)。doi:10.1007/11564089_7·Zbl 1168.62354号
[3] Gretton,A.,Borgwardt,K.,Rasch,M.,Schölkopf,B.,Smola,A.J.:双样本问题的核方法。收录:Schölkopf,B.,Platt,J.C.,Hoffman,T.(编辑)《神经信息处理系统进展》19(2007)。http://papers.nips.cc/paper/3110-a-kernel-method-for-the-two-sample-problem.pdf ·Zbl 1283.62095号
[4] Ioffe,S.,Szegedy,C.:批处理规范化:通过减少内部协变量偏移来加速深层网络训练。收录:Bach,F.,Blei,D.(编辑)第32届机器学习国际会议论文集。机器学习研究论文集,第37卷,第448-456页。PMLR,法国里尔(2015)。https://proceedings.mlr.press/v37/ioffe15.html
[5] Kingma,D.P.,Ba,J.:亚当:一种随机优化方法。收录:ICLR(海报)(2015年)。arXiv:1412.6980
[6] Tan,M.,Le,Q.:效率网:重新思考卷积神经网络的模型缩放。收录:Chaudhuri,K.,Salakhutdinov,R.(编辑)《第36届机器学习国际会议论文集》。机器学习研究论文集,第97卷,第6105-6114页。PMLR,美国加利福尼亚州长滩(2019年)。http://proceedings.mlr.press/v97/tan19a.html
[7] Bergstra,J。;Bengio,Y.,超参数优化的随机搜索,J.Mach。学习。第13、10、281-305号决议(2012年)·Zbl 1283.68282号
[8] Jamieson,K.,Talwalkar,A.:非随机最佳臂识别和超参数优化。摘自:Gretton,A.,Robert,C.C.(编辑)《第19届国际人工智能与统计会议论文集》。机器学习研究论文集,第51卷,第240-248页。PMLR,西班牙加的斯(2016)。http://proceedings.mlr.press/v51/jamieson16.html
[9] 李,L。;杰米森,K。;DeSalvo,G。;罗斯塔米扎德,A。;Talwalkar,A.,《超波段:基于强盗的超参数优化新方法》,J.Mach。学习。第18、185、1-52号决议(2018年)·Zbl 1468.68204号
[10] Mockus,J.:关于寻求极值的贝叶斯方法。摘自:IFIP技术会议记录,第400-404页。施普林格,柏林,海德堡(1974)·Zbl 0311.90042号
[11] 沙赫里亚里,B。;瑞典斯威斯基。;王,Z。;亚当斯,RP;de Freitas,N.,《让人类走出循环:贝叶斯优化综述》,Proc。IEEE,104,148-175(2016)·doi:10.1109/JPROC.2015.2494218
[12] Snoek,J.,Larochelle,H.,Adams,R.P.:机器学习算法的实用贝叶斯优化。摘自:《第25届神经信息处理系统国际会议论文集》,第2卷。NIPS’12,第2951-2959页。Curran Associates Inc.,Red Hook(2012年)
[13] Bergstra,J.S.,Bardenet,R.,Bengio,Y.,Kégl,B.:超参数优化算法。发表于:Shawe-Taylor,J.、Zemel,R.S.、Bartlett,P.L.、Pereira,F.、Weinberger,K.Q.(编辑)《神经信息处理系统进展》24(2011)。http://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf
[14] Snoek,J.、Rippel,O.、Swersky,K.、Kiros,R.、Satish,N.、Sundaram,N.,Patwary,M.、Prabhat,M.和Adams,R.:使用深度神经网络的可伸缩贝叶斯优化。收录:Bach,F.,Blei,D.(编辑)第32届机器学习国际会议论文集。机器学习研究论文集,第37卷,第2171-2180页。PMLR,法国里尔(2015)。http://proceedings.mlr.press/v37/snoek15.html
[15] Cholet,F.:Xception:深度学习与深度可分离卷积。CoRR(2016)。arXiv:1610.02357
[16] KO斯坦利;Miikkulainen,R.,通过增强拓扑结构进化神经网络,Evol。计算。,10, 2, 99-127 (2002) ·doi:10.1162/106365602320169811
[17] Kandasamy,K.,Neiswanger,W.,Schneider,J.,Póczos,B.,Xing,E.P.:贝叶斯优化和最优运输的神经架构搜索。摘自:第32届神经信息处理系统国际会议论文集。NIPS’18,第2020-2029页。Curran Associates Inc.,美国纽约州Red Hook(2018年)
[18] Pham,H.,Guan,M.,Zoph,B.,Le,Q.,Dean,J.:通过参数共享进行高效的神经架构搜索。摘自:机器学习研究论文集,第80卷,第4095-4104页。PMLR,瑞典斯德哥尔摩Stockholmsmässan(2018)。http://proceedings.mlr.press/v80/pham18a.html
[19] Tan,M.,Chen,B.,Pang,R.,Vasudevan,V.,Le,Q.V.:Mnasnet:移动平台软件神经架构搜索。CoRR(2018)。arXiv:1807.11626年
[20] Elsken,T。;梅森,JH;Hutter,F.,《神经结构搜索:一项调查》,J.Mach。学习。第20、55、1-21号决议(2019年)·Zbl 1485.68229号
[21] 拉扎维,S。;Jakeman,A。;Saltelli,A。;Prieur,C。;Iooss,B。;博尔戈诺沃,E。;Plischke,E。;Lo Piano,S。;Iwanaga,T。;贝克尔,W。;南卡罗来纳州塔兰托拉。;纪尧姆,JHA;Jakeman,J。;古普塔,H。;梅利略,N。;Rabitti,G。;查布里顿,V。;段,Q。;太阳,X。;史密斯,S。;Sheikholeslami,R。;侯赛尼,N。;Asadzadeh,M。;Puy,A。;库切伦科,S。;Maier,HR,《敏感性分析的未来:系统建模和政策支持的基本原则》,环境。模型。软质。,137 (2021) ·doi:10.1016/j.envsoft.2020.104954
[22] Sobol,IM,非线性数学模型的灵敏度估计,MMCE,1407-414(1993)·Zbl 1039.65505号
[23] J-C堡;Klein,T。;Rachdi,N.,从属于对比的新敏感性分析,Commun。统计理论方法,45,15,4349-4364(2016)·Zbl 1397.62592号 ·doi:10.1080/03610926.2014.901369
[24] Borgonovo,E.,一种新的不确定性重要性度量,Reliab。工程系统。安全。,92, 6, 771-784 (2007) ·doi:10.1016/j.ress.2006.04.015
[25] Saltelli,A.,《充分利用模型评估计算敏感性指数》,计算。物理学。社区。,145, 2, 280-297 (2002) ·兹比尔0998.65065 ·doi:10.1016/S0010-4655(02)00280-1
[26] Da Veiga,S.,《依赖性度量的全球敏感性分析》,J.Stat.Compute。模拟。(2013) ·Zbl 1457.62188号 ·doi:10.1080/00949655.2014.945932
[27] Csizar,I.,概率分布差异的信息型度量和间接观测,科学研究。数学。挂。,2, 229-318 (1967) ·Zbl 0157.25802号
[28] Müller,A.,《积分概率度量及其函数生成类》,Adv.Appl。概率。,29, 2, 429-443 (1997) ·Zbl 0890.60011号 ·doi:10.2307/1428011
[29] Spagnol,A。;里奇,RL;Da Veiga,S.,变量选择优化的全局敏感性分析,SIAM/ASA J.不确定性。数量。,7, 417-443 (2018) ·Zbl 1421.49032号 ·doi:10.1137/18M1167978
[30] Fukumizu,K.,Gretton,A.,Lanckriet,G.R.,Schölkopf,B.,Sriperumbudur,B.K.:概率分布rkhs嵌入的核选择和可分类性。发表于:Bengio,Y.、Schuurmans,D.、Lafferty,J.D.、Williams,C.K.I.、Culotta,A.(编辑)《神经信息处理系统进展》22(2009)。http://papers.nips.cc/paper/3750-kernel-choice-and-classifiability-for-rkhs-embeddings-of-probability-distributions.pdf
[31] Kruskal,JB,通过优化非度量假设的拟合优度实现多维尺度,《心理测量学》,29,1,1-27(1964)·兹伯利0123.36803 ·doi:10.1007/BF02289565
[32] Gillespie,DT,《数值模拟耦合化学反应随机时间演化的通用方法》,J.Compute。物理。,22, 4, 403-434 (1976) ·doi:10.1016/0021-9991(76)90041-3
[33] Falkner,S.、Klein,A.、Hutter,F.:BOHB:大规模稳健高效超参数优化。载:《机器学习研究院刊》,第80卷,第1437-1446页。PMLR,瑞典斯德哥尔摩Stockholmsmässan(2018)。http://proceedings.mlr.press/v80/falkner18a.html
[34] Song,L.,Smola,A.,Gretton,A.,Borgwardt,K.M.,Bedo,J.:通过相关性估计进行监督特征选择。摘自:第24届机器学习国际会议论文集。2007年ICML,第823-830页。美国纽约州纽约市计算机协会(2007年)。数字对象标识代码:10.1145/1273496.1273600·Zbl 1303.68110号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。