×

从持续的角度进行机器学习。一、。 (英语) Zbl 1472.68136号

摘要:我们本着经典数值分析的精神,提出了机器学习的连续公式,作为变分法和微分积分方程中的一个问题。我们证明,传统的机器学习模型和算法,如随机特征模型、双层神经网络模型和残差神经网络模型,都可以恢复为(按比例)不同连续公式的特定离散化。我们还介绍了新模型的例子,如基于流的随机特征模型,以及新算法,如平滑粒子方法和光谱方法,这些都是从这种连续公式中自然产生的。我们讨论了如何在这个框架下研究泛化误差和隐式正则化问题。

MSC公司:

68T05型 人工智能中的学习和自适应系统
49平方米 松弛型数值方法
20年第49季度 几何测量理论环境中的变分问题
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ambrosio,L。;Gigli,N。;Savaré,G.,《梯度流:度量空间和概率测度空间》(2008),柏林:斯普林格出版社,柏林·Zbl 1145.35001号
[2] Araújo D,Oliveira R I,Yukimura D。某些深层神经网络的平均场极限。arXiv:1906.001932019年
[3] 阿贝尔,M。;科尔巴。;Salim,A.,《最大平均差异梯度流》,《神经信息处理系统进展》,6481-6491(2019),剑桥:麻省理工学院出版社,剑桥
[4] Avelin B,Nyström K。神经常微分方程作为常权重ResNets的深度极限。arXiv:1906.121832019年
[5] 巴赫,F.,《用凸神经网络打破维度诅咒》,J Mach Learn Res,18,1-53(2017)·Zbl 1433.68390号
[6] Barron,A.R.,σ函数叠加的通用近似界,IEEE Trans Inform Theory,39930-945(1993)·Zbl 0818.68126号
[7] Bartlett P L,Evans S N,Long P M.将光滑函数表示为近恒等式函数的组合,对深层网络优化具有意义。arXiv:1804.050122018年
[8] Bartlett,P.L。;Mendelson,S.,Rademacher和高斯复杂性:风险边界和结构结果,J Mach Learn Res,3463-482(2002)·Zbl 1084.68549号
[9] 贝尔金,M。;Hsu博士。;Ma,S.Y.,《协调现代机器学习实践与经典偏差-方差权衡》,美国国家科学院院刊,116,15849-15854(2019)·Zbl 1433.68325号
[10] Boltyanskii,V.G。;Gamkrelidze,R.V。;Pontryagin,L.S.,《优化过程理论》。I.最大值原理,《关于解析函数和常微分方程的二十篇论文》,341-382(1961),普罗维登斯:Amer Math Soc,普罗维登斯·Zbl 0098.29404号
[11] Candès,E.J.,神经网络的谐波分析,《应用计算谐波分析》,6197-218(1999)·Zbl 0931.68104号
[12] 坎迪斯,E.J。;Donoho,D.L.,Ridgelets:高维间歇性的关键?,Philos Trans R Soc Lond Ser A数学物理工程科学,357,2495-2509(1999)·Zbl 1082.42503号
[13] Carleo,G。;Troyer,M.,用人工神经网络解决量子多体问题,《科学》,355602-606(2017)·Zbl 1404.81313号
[14] 卡拉蒂诺,L。;Rudi,A。;Rosasco,L.,《利用SGD和随机特征学习》,神经信息处理系统进展,10213-10224(2018),剑桥:麻省理工学院出版社,剑桥
[15] 陈仁堂。;Rubanova,Y。;Bettencourt,J.,《神经常微分方程》,《神经信息处理系统进展》,6571-6583(2018),剑桥:麻省理工学院出版社,剑桥
[16] Chizat,L。;Bach,F.,《关于使用最优传输的过度参数化模型的梯度下降的全局收敛》,《神经信息处理系统进展》,3036-3046(2018),剑桥:麻省理工学院出版社,剑桥
[17] Ciarlet,P.G.,《椭圆问题的有限元方法》,应用数学经典,第40卷(2002),费城:SIAM,费城·Zbl 0999.65129号
[18] Cybenko,G.,S形函数的叠加逼近,数学控制信号系统,2303-314(1989)·Zbl 0679.94019号
[19] Devlin J,Chang M W,Lee K,et al.BERT:语言理解深度双向变换器的预训练。arXiv:1810.048052018年
[20] E、 W.,《关于通过动态系统进行机器学习的提案》,Commun Math Stat,5,1-11(2017)·Zbl 1380.37154号
[21] E、 W.,《机器学习:数学理论和科学应用》,《美国数学学会通告》,661813-1820(2019)·Zbl 1439.68019号
[22] E、 W。;韩建清。;Jentzen,A.,高维抛物型偏微分方程和倒向随机微分方程基于深度学习的数值方法,Commun Math Stat,5349-380(2017)·Zbl 1382.65016号
[23] E、 W。;韩建清。;Li,Q.X.,深度学习的平均场最优控制公式,Res Math Sci,6,10(2019)·Zbl 1421.49021号
[24] E W,Ma C,Wu L.Barron空间和神经网络模型的合成函数空间。arXiv:1906.08039,2019年
[25] E、 W。;马,C。;Wu,L.,两层神经网络人口风险的先验估计,《公共数学科学》,第17期,第1407-1425页(2019年)·Zbl 1427.68277号
[26] E、 W。;马,C。;Wu,L.,梯度下降动力学下两层神经网络和随机特征模型的优化和泛化性能比较分析,科学中国数学,631235-1258(2020)·Zbl 1453.68163号
[27] E、 W。;Yu,B.,《深层Ritz方法:求解变分问题的基于深度学习的数值算法》,《公共数学统计》,6,1-12(2018)·Zbl 1392.35306号
[28] Forsythe,G.E。;Wasow,W.R.,偏微分方程的有限差分方法,应用数学系列(1967),纽约-朗顿:John Wiley&Sons,纽约-隆顿
[29] Gottlieb,D。;Orszag,S.A.,谱方法的数值分析:理论与应用,CBMS-NSF应用数学区域会议系列,第26卷(1977),费城:SIAM,费城·兹伯利0412.65058
[30] Gustafsson,B。;Kreiss,H-O;Oliger,J.,《时间依赖问题和差分方法》(1995),纽约:John Wiley&Sons出版社,纽约·Zbl 0843.65061号
[31] 哈伯,E。;Ruthotto,L.,深度神经网络的稳定架构,反问题,34,014004(2017)·Zbl 1426.68236号
[32] Han J Q,E W.随机控制问题的深度学习近似。深度强化学习研讨会,arXiv:1611.074222016
[33] 韩建清。;Jentzen,A。;E、 W.,使用深度学习求解高维偏微分方程,美国国家科学院院刊,1158505-8510(2018)·Zbl 1416.35137号
[34] 韩建清。;张,L.F。;E、 W.,使用深度神经网络求解多电子薛定谔方程,计算物理杂志,399108929(2019)·Zbl 1457.81010号
[35] Hanin,B.,哪些神经网络架构会产生爆炸和消失梯度?,神经信息处理系统进展,582-591(2018),剑桥:麻省理工学院出版社,剑桥
[36] He,K.M。;张晓云。;Ren,S.Q.,图像识别的深度剩余学习,IEEE计算机视觉和模式识别会议论文集,770-778(2016),皮斯卡塔韦:IEEE,皮斯卡塔韦
[37] Hendrycks D、Gimpel K、高斯误差线性单位(GELUs)。arXiv:1606.084152016年
[38] Hochreiter,S。;Y.本吉奥。;Frasconi,P.,《递归网络中的梯度流:学习长期依赖性的困难》,《动态递归神经网络领域指南》,237-244(2001),皮斯卡塔韦:威利IEEE出版社,皮斯卡塔韦
[39] Hohenberg,P.C。;Halperin,B.I.,《动态临界现象理论》,《现代物理学评论》,49,435(1977)
[40] Jabir J-F,Šiška D,Szpruch L.Mean-field神经ODEs的松弛最优控制。arXiv:1912.054752019年
[41] 约旦共和国。;Kinderlehrer,D。;Otto,F.,Fokker-Planck方程的变分公式,SIAM数学分析杂志,29,1-17(1998)·Zbl 0915.35120号
[42] Khoo,Y.H。;卢,J.F。;Ying,L.X.,使用人工神经网络求解高维committer函数,Res Math Sci,6,1(2019)·Zbl 1498.60222号
[43] 李秋霞。;Chen,L。;Tai,C.,深度学习的最大原理算法,J Mach Learn Res,18,5998-6026(2017)·Zbl 1467.68156号
[44] 吕永平。;钟,A.X。;Li,Q.Z.,《超越有限层神经网络:桥接深层结构和数值微分方程》,机器学习国际会议,3282-3291(2018),斯德哥尔摩:ICML,斯德哥尔
[45] 梅,S。;Montanari,A。;Nguyen,P-M,两层神经网络景观的平均视野,美国国家科学院院刊,115,E7665-E7671(2018)·Zbl 1416.92014号
[46] Monaghan,J.J.,《平滑粒子流体动力学》,《物理学报》,第68期,第1703页(2005年)·Zbl 1160.76399号
[47] 芒福德,D。;Shah,J.,《分段光滑函数的最优逼近及其相关变分问题》,《Comm Pure Appl Math》,42,577-685(1989)·Zbl 0691.49036号
[48] Murata,N.,《使用三层网络及其近似界的函数积分表示法》,神经网络,9,947-956(1996)
[49] Nguyen P-M.多层神经网络学习动力学的平均场极限。arXiv:1902.028802019年
[50] 帕杜克斯,E。;Peng,S.G.,倒向随机微分方程和拟线性抛物型偏微分方程,控制与信息科学讲义,176200-217(1992)·Zbl 0766.60079号
[51] Pfau D、Spencer J S、Matthews A G等,多电子薛定谔方程的深度神经网络从头算解。arXiv:1909.024872019年
[52] Richtmyer,R.D。;Morton,K.W.,《初值问题的差分方法》(1967),纽约:跨科学,纽约·兹比尔0155.47502
[53] Rotskoff,G。;杰拉西,S。;Bruna,J.,神经元生灭动力学加速梯度下降并渐近收敛,机器学习国际会议,5508-5517(2019),长滩:ICML,长滩
[54] Rotskoff,G。;Vanden-Eijnden,E.,《作为相互作用粒子的参数:神经网络的长时间收敛和渐近误差标度》,《神经信息处理系统进展》,7146-7155(2018),剑桥:麻省理工学院出版社,剑桥
[55] Roux,N.L。;Bengio,Y.,连续神经网络,《第十一届国际人工智能和统计会议记录》,第2卷,404-411(2007),波多黎各:PMLR,波多黎各个
[56] 鲁丁,L.I。;Osher,S。;Fatemi,E.,基于非线性总变差的噪声去除算法,Phys D,60,259-268(1992)·兹比尔0780.49028
[57] Santambrogio,F.,{欧几里德、公制和Wasserstein}梯度流:概述,布尔数学科学,787-154(2017)·兹伯利1369.34084
[58] 沙列夫·施瓦茨,S。;Ben-David,S.,《理解机器学习:从理论到算法》(2014),剑桥:剑桥大学出版社,剑桥·Zbl 1305.68005号
[59] 西里尼亚诺,J。;Spiliopoulos,K.,DGM:解偏微分方程的深度学习算法,计算物理杂志,3751339-1364(2018)·Zbl 1416.65394号
[60] Sirignano J,Spiliopoulos K。深层神经网络的平均场分析。arXiv:1903.044402019年·Zbl 1441.60022号
[61] Sirignano,J。;Spiliopoulos,K.,《神经网络的平均场分析:中心极限定理》,随机过程应用,1301820-1852(2020)·Zbl 1441.60022号
[62] Sonoda S、Ishikawa I、Ikeda M等。浅层神经网络的全局最优解是通过脊波变换实现的。arXiv:1805.075172018年
[63] 索诺达,S。;Murata,N.,具有无界激活函数的神经网络是通用逼近器,《应用计算和谐分析》,43,233-268(2017)·Zbl 1420.68177号
[64] Thorpe M,Gennip Y V.剩余神经网络的深度极限。arXiv:1810.117412018年
[65] 维拉尼·C·最佳交通:新旧。柏林-海德堡:施普林格-弗拉格出版社,2008年·Zbl 1156.53003号
[66] 徐志清,张义勇,罗涛,等。频率原理:傅里叶分析揭示了深层神经网络。arXiv:1901.065232019年
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。