×

使用(ell_1)正则化和双精度数据进行神经网络训练。 (英语) Zbl 07527706号

摘要:由于神经网络能够准确地表示物理系统模型的输入和感兴趣的输出量之间的函数关系,因此在科学应用中,神经网络已成为替代建模的热门方法。然而,由于这些网络过于参数化,它们的训练通常需要大量数据。为了防止过拟合和改善泛化误差,应用了基于参数的(\ell_1)-和(\ell_2)-范数的正则化。类似地,可以修剪网络的多个连接,以增加网络参数的稀疏性。在本文中,我们探讨了当高保真度模型中只有一个小的训练数据集可用时,稀疏性促进\(\ell_1\)正则化对训练神经网络的影响。与已知不充分的标准(ell_1)正则化相反,我们考虑了(ell_1-)正则化的两种变体,这两种变体由使用手边问题的低保真度模型的数据训练的相同网络的参数通知。这些双精度策略是神经网络传递学习的推广,它使用从大型低精度数据集学习的参数来有效地为小型高保真数据集训练网络。我们还将双精度策略与两种正则化方法进行了比较,这两种方法仅使用高保真数据集,但生成训练数据集的计算成本相似。三个通过物理系统传播不确定性的数值例子表明,所提出的双精度(ell_1)正则化策略产生的误差比仅使用高保真模型数据集训练的网络小一个数量级。

MSC公司:

68泰克 人工智能
65新元 偏微分方程边值问题的数值方法
65立方厘米 概率方法,随机微分方程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ghanem,R.G。;Spanos,P.D.,《随机有限元:谱方法》(2003),Courier Corporation
[2] 修,D。;Karniadakis,G.E.,随机微分方程的Wiener-Askey多项式混沌,SIAM J.Sci。计算。,24, 2, 619-644 (2002) ·Zbl 1014.65004号
[3] 巴布什卡,I。;Nobile,F。;Tempone,R.,带随机输入数据的椭圆偏微分方程的随机配置方法,SIAM J.Numer。分析。,45, 3, 1005-1034 (2007) ·Zbl 1151.65008号
[4] Nobile,F。;丹蓬,R。;Webster,C.G.,《具有随机输入数据的偏微分方程的稀疏网格随机配置方法》,SIAM J.Numer。分析。,46, 5, 2309-2345 (2008) ·Zbl 1176.65137号
[5] 威廉姆斯,C.K。;Rasmussen,C.E.,《机器学习的高斯过程》(2006),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 1177.68165号
[6] Forrester,A.I。;Sóbester,A。;Keane,A.J.,《通过代理建模实现多精度优化》,Proc。R.Soc.伦敦。A、 数学。物理学。工程科学。,463, 2088, 3251-3269 (2007) ·Zbl 1142.90489号
[7] Doostan,A。;奥瓦迪,H。;拉什加里,A。;Iacarino,G.,随机输入下PDE的非自适应稀疏近似(2009),斯坦福大学湍流研究中心,技术代表年度研究简报
[8] Doostan,A。;Owhadi,H.,具有随机输入的PDE的非自适应稀疏近似,J.Compute。物理。,2308,3015-3034(2011年)·Zbl 1218.65008号
[9] 贝克,N。;亚历山大,F。;Bremer,T。;哈格伯格,A。;Kevrekidis,Y。;Najm,H。;Parashar,M。;Patra,A。;塞提安,J。;Wild,S。;威尔科克斯,K。;Lee,S.,《科学机器学习的基本研究需求研讨会报告:人工智能的核心技术》(2019年),USDOE科学办公室(SC):USDOE美国华盛顿特区科学办公室,技术代表。
[10] 莱斯,M。;Karniadakis,G.E.,《隐藏的物理模型:非线性偏微分方程的机器学习》,J.Comput。物理。,357, 125-141 (2018) ·Zbl 1381.68248号
[11] Bhatnagar,S.公司。;阿夫沙尔,Y。;潘,S。;Duraisamy,K。;Kaushik,S.,使用卷积神经网络预测空气动力流场,计算。机械。,64, 2, 525-545 (2019) ·Zbl 1468.76051号
[12] Lee,S。;You,D.,《使用深度学习对圆柱上方非定常流动进行数据驱动预测》,J.流体力学。,879, 217-254 (2019) ·Zbl 1430.76311号
[13] 阿德科克,B。;Brugiapaglia,S。;德克斯特,N。;Moraga,S.,深度神经网络可以有效地从有限的数据学习高维Hilbert值函数,arXiv预印本
[14] 阿德科克,B。;Dexter,N.,深度神经网络函数逼近理论与实践之间的差距,arXiv预印本·Zbl 1483.65028号
[15] Donoho,D.L.,压缩传感,IEEE Trans。《信息论》,52,4,1289-1306(2006)·Zbl 1288.94016号
[16] Cheng,Y。;王,D。;周,P。;Zhang,T.,深度神经网络模型压缩和加速综述,arXiv预印本
[17] 刘,Z。;孙,M。;周,T。;黄,G。;Darrell,T.,重新思考网络修剪的价值,arXiv预印本
[18] Hoefler,T。;Alistarh,D。;Ben-Nun,T。;德莱顿,N。;Pester,A.,《深度学习中的稀疏性:神经网络中有效推理和训练的修剪和增长》,arXiv预印本·Zbl 07626756号
[19] Reed,R.,《剪枝算法——调查》,IEEE Trans。神经网络。,4, 5, 740-747 (1993)
[20] 乐村,Y。;Denker,J.S。;Solla,S.A.,《最佳脑损伤》(神经信息处理系统进展(1990)),598-605
[21] 哈西比,B。;Stok,D.G.,《网络修剪的二阶导数:最佳脑外科医生》(神经信息处理系统进展(1993)),164-171
[22] 韩,S。;Pool,J。;Tran,J。;Dally,W.,学习有效神经网络的权重和连接,(神经信息处理系统进展(2015)),1135-1143
[23] 韩,S。;Pool,J。;Narang,S。;毛,H。;龚,E。;唐,S。;埃尔森,E。;瓦伊达,P。;Paluri,M。;Tran,J.,DSD:深度神经网络的密集稀疏密集训练,arXiv预印本
[24] 李,H。;Kadav,A。;杜丹诺维奇,I。;萨梅特,H。;Graf,H.P.,高效ConvNets的剪枝过滤器,arXiv预印本
[25] Mallya,A。;Lazebnik,S.,《Packnet:通过迭代修剪向单个网络添加多个任务》,(IEEE计算机视觉和模式识别会议论文集(2018)),7765-7773
[26] 辛顿,G.E。;北斯利瓦斯塔瓦。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.R.,通过防止特征检测器的联合自适应改进神经网络,arXiv预印本
[27] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》,J.Mach。学习。1929-1958年第15号决议(2014年)·Zbl 1318.68153号
[28] Wan,L。;泽勒,M。;张,S。;乐村,Y。;Fergus,R.,《使用DropConnect对神经网络进行正则化》(2013年国际机器学习会议),1058-1066
[29] 弗兰克尔,J。;Carbin,M.,彩票假设:寻找稀疏可训练的神经网络,arXiv预印本
[30] Krogh,A。;Hertz,J.A.,简单的重量衰减可以改善泛化,(神经信息处理系统进展(1992)),950-957
[31] 周,H。;Alvarez,J.M。;Porikli,F.,《少即是多:走向紧凑的CNN》(欧洲计算机视觉会议(2016),施普林格),662-677
[32] 列别捷夫,V。;Lempitsky,V.,使用群体性脑损伤的快速ConvNets,(IEEE计算机视觉和模式识别会议论文集(2016)),2554-2564
[33] 医学博士柯林斯。;Kohli,P.,《内存有界深度卷积网络》,arXiv预印本
[34] 刘,Z。;李,J。;沈,Z。;黄,G。;Yan,S。;Zhang,C.,通过网络精简学习高效卷积网络,(IEEE国际计算机视觉会议论文集(2017)),2736-2744
[35] 斯卡达潘,S。;Comminiello,D。;侯赛因,A。;Uncini,A.,深度神经网络的群稀疏正则化,神经计算,241,81-89(2017)
[36] 温,W。;吴,C。;Wang,Y。;陈,Y。;Li,H.,深度神经网络中的学习结构稀疏性,(神经信息处理系统进展(2016)),2074-2082
[37] Alvarez,J.M。;Salzmann,M.,学习深度网络中的神经元数量,(神经信息处理系统进展(2016)),2270-2278
[38] Yang,H。;温,W。;Li,H.,DeepHoyer:学习具有可微尺度变稀疏性测度的稀疏神经网络,arXiv预印本
[39] 坎迪斯,E.J。;Wakin,M.B。;Boyd,S.P.,通过重加权最小化增强稀疏性,J.Fourier Ana。申请。,14, 5-6, 877-905 (2008) ·Zbl 1176.94014号
[40] 本纳,P。;古吉丁,S。;Willcox,K.,参数动力系统基于投影的模型简化方法综述,SIAM Rev.,57,4,483-531(2015)·Zbl 1339.37089号
[41] Rasmussen,C.E.,机器学习中的高斯过程,(机器学习高级讲座(2004),Springer),63-71·Zbl 1120.68436号
[42] Forrester,A.I。;Keane,A.J.,《基于代理的优化的最新进展》,Prog。Aerosp.航空公司。科学。,45, 1-3, 50-79 (2009)
[43] Motamed,M.,一种用于不确定性量化的多保真神经网络替代采样方法,arXiv预印本·Zbl 1498.65012号
[44] 德·S。;J·布里顿。;雷诺兹,M。;斯金纳,R。;Jansen,K。;Doostan,A.,《使用双精度数据进行不确定性传播的神经网络传递学习》,《国际不确定性杂志》。量化。,10, 6 (2020) ·Zbl 1498.68231号
[45] X孟。;Karniadakis,G.E.,《从多保真数据中学习的复合神经网络:函数逼近和PDE逆问题的应用》,J.Compute。物理。,401,第109020条pp.(2020)·Zbl 1454.76006号
[46] 古德费罗,I。;Y.本吉奥。;Courville,A.,《深度学习》(2016),麻省理工学院出版社·兹比尔1373.68009
[47] 克利夫特,D.-A。;Unterthiner,T。;Hochreiter,S.,用指数线性单位(ELU)快速准确地进行深度网络学习,arXiv预印本
[48] Ruder,S.,梯度下降优化算法概述,arXiv预印本
[49] 德·S。;J.汉普顿。;Maute,K。;Doostan,A.,使用随机梯度方法进行不确定性下的拓扑优化,结构。多磁盘。最佳。,62, 5, 2255-2278 (2020)
[50] 德,S。;Maute,K。;Doostan,A.,不确定条件下结构优化的双保真度随机梯度下降,计算。机械。,66, 4, 745-771 (2020) ·Zbl 1465.74137号
[51] Kingma,D。;Ba,J.,Adam:一种随机优化方法,arXiv预印本
[52] Tikhonov,A.N。;Goncharsky,A。;斯蒂芬诺夫(Stepanov,V.)。;Yagola,A.G.,《求解不适定问题的数值方法》,第328卷(2013),Springer Science&商业媒体
[53] Shor,N.Z.,《不可微优化与多项式问题》,第24卷(2013),Springer Science&商业媒体
[54] 博伊德,S。;Mutapcic,A.,《随机次梯度方法讲义》(2008),斯坦福大学
[55] Nesterov,Y.,《凸优化导论:基础课程》,第87卷(2013),Springer Science&商业媒体
[56] Zou,H.,《自适应套索及其预言属性》,美国统计协会,101,476,1418-1429(2006)·Zbl 1171.62326号
[57] Yarotsky,D.,深度ReLU网络近似的误差界,神经网络。,94, 103-114 (2017) ·Zbl 1429.68260号
[58] Logg,A。;马尔达尔,K.-A。;Wells,G.N.,《用有限元法自动求解微分方程》(2012),Springer·Zbl 1247.65105号
[59] J.汉普顿。;费尔班克斯,H.R。;Narayan,A。;Doostan,A.,参数/随机模型简化的非侵入式双精度方法的实际误差界,J.Compute。物理。,368, 315-332 (2018) ·Zbl 1392.62352号
[60] Bengio,Y.,《基于梯度的深层架构培训实用建议》(Neural Networks:Tricks of the Trade,2012),施普林格出版社,437-478
[61] Geman,S。;Bienenstock,E。;Doursat,R.,《神经网络与偏差/方差困境》,神经计算。,4,1,1-58(1992年)
[62] 贝尔金,M。;徐,D。;马,S。;Mandal,S.,《协调现代机器学习实践和经典偏差-方差权衡》,Proc。国家。阿卡德。科学。,116, 32, 15849-15854 (2019) ·Zbl 1433.68325号
[63] 勒马恩特雷,O.P。;里根,M.T。;Najm,H.N。;Ghanem,R.G。;Knio,O.M.,流体流动的随机投影方法:II。随机过程,J.计算。物理。,181,1,9-44(2002年)·Zbl 1052.76057号
[64] 彭杰。;J.汉普顿。;Doostan,A.,稀疏多项式混沌展开的加权(ell_1)最小化方法,J.Compute。物理。,267, 92-111 (2014) ·Zbl 1349.65198号
[65] Le Quéré,P.,高瑞利数下方形热驱动腔的精确解,计算。流体,20,1,29-41(1991)·Zbl 0731.76054号
[66] 陈庆云。;Gottlieb,D。;Hesthaven,J.S.,双喉口喷嘴稳态流动的不确定性分析,J.Compute。物理。,204, 1, 378-398 (2005) ·Zbl 1143.76430号
[67] 辛顿,G.E。;Salakhutdinov,R.R.,《用神经网络降低数据的维数》,《科学》,3135786504-507(2006)·Zbl 1226.68083号
[68] Makhzani,A。;Shlens,J。;北卡罗来纳州贾特利。;古德费罗,I。;Frey,B.,对手自动编码器,arXiv预印本
[69] 沙列夫·施瓦茨,S。;Ben-David,S.,《理解机器学习:从理论到算法》(2014),剑桥大学出版社·Zbl 1305.68005号
[70] Koltchinskii,V.,(Oracle在经验风险最小化和稀疏恢复问题中的不等式:Es cole d’etéde Probabilityés de Saint-Flour XXXVIII-2008,第2033卷(2011),Springer Science&商业媒体:Springer Science&商业媒体柏林,海德堡),17-32,Ch.2·Zbl 1223.91002号
[71] 拉克林,A。;Sridharan,K.,《统计学习和序列预测讲义》(2014),麻省理工学院
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。