×

大输入数据情况下残差神经网络的连续极限。 (英语) Zbl 1512.35576号

摘要:剩余深度神经网络(ResNets)在数学上被描述为相互作用的粒子系统。在无限多层的情况下,ResNet导致一个常微分方程耦合系统,称为神经微分方程。对于大规模输入数据,我们导出了平均场极限,并显示了结果描述的良好性。进一步,我们利用可控性和最优控制的观点分析了训练过程解的存在性。基于形式优化系统解的数值研究说明了理论结果。

MSC公司:

79年第35季度 PDE与经典热力学和传热
49N80型 平均场游戏和控制
92B20型 生物研究、人工生命和相关主题中的神经网络

软件:

火炬差异
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 1.M.Wooldridge,人工智能需要的不仅仅是深度学习,但具体是什么?,《人工智能》,第289卷,第103386页,2020年。
[2] 2.S.Lalmuanawma、J.Hussain和L.Chhakhhuak,机器学习和人工智能在新型冠状病毒(SARS-CoV-2)大流行中的应用:综述,混沌孤子分形,第139卷,第110059、6页,2020年。
[3] 3.V.C.Müller和N.Bostrom,《人工智能的未来进展:专家意见调查》,载于《人工智能基本问题》,Synth第376卷。伦敦银行同业拆借利率。,第553-570页,施普林格,【查姆】,2016年。
[4] 4.K.T.Mengistu和F.Rudzicz,《人类和自动语音识别系统在识别构音障碍语音方面的比较》,《人工智能进展》,第6657卷,《计算机课堂笔记》。科学。,第291-300页,施普林格,海德堡,2011年。
[5] 5.C.Li、Y.Xing、F.He和D.Cheng,《基于状态的游戏的战略学习算法》,Automatica J.IFAC,第113卷,第108615页,2020年9月·Zbl 1440.93017号
[6] 6.Z.M.Fadlullah、B.Mao、F.Tang和N.Kato,基于价值迭代架构的深度学习,用于利用异构计算平台的智能路由,IEEE Trans。计算。,第68卷,第6期,第939-950页,2019年·Zbl 07093730号
[7] 7.R.E.Stern、S.Cui、M.L.Delle Monache、R.Bhadani、M.Bunting、M.Churchill、N.Hamilton、R.Haulcy、H.Pohlmann、F.Wu、B.Piccoli、B.Seibold、J.Sprinkle和D.B.Work,通过控制自动车辆消散停行波:现场实验,运输研究第C部分:新兴技术,第89卷,第205-221页,2018
[8] 8.S.Mishra,用于数据驱动的微分方程计算加速的机器学习框架,数学。《工程》,第1卷,第1期,第118-146页,2019年·Zbl 1435.68279号
[9] 9.K.O.Lye、S.Mishra和D.Ray,《计算流体动力学中的深度学习观察》,J.Compute。物理。,第410卷,第109339页,第26页,2020年·兹比尔1436.76051
[10] 10.D.Zhang、L.Guo和G.E.Karniadakis,模态空间中的学习:使用物理信息神经网络求解时间相关随机偏微分方程,SIAM J.Sci。计算。,第42卷,第2期,第A639-A6652020页·Zbl 1440.60067号
[11] 11.M.Raissi、P.Perdikaris和G.E.Karniadakis,《基于物理的神经网络:解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,第378卷,第686-707页,2019年·Zbl 1415.68175号
[12] 12.N.Disacciati、J.S.Hesthaven和D.Ray,使用神经网络调节的人工粘度控制高阶非连续Galerkin格式中的振荡,J.Compute。物理。,第409卷,第109304页,第30页,2020年·Zbl 1435.65156号
[13] 13.D.Ray和J.S.Hesthaven,使用神经网络检测二维非结构化网格上的故障细胞,J.Compute。物理。,第397卷,第108845页,2019年31月·Zbl 1453.65301号
[14] 14.J.Magiera、D.Ray、J.S.Hesthaven和C.Rohde,Riemann问题的约束感知神经网络,J.Compute。物理。,第409卷,第109345页,第27页,2020年·Zbl 1435.76046号
[15] 15.D.Ray和J.S.Hesthaven,作为故障细胞指示器的人工神经网络,J.Compute。物理。,第367卷,第166-191页,2018年·Zbl 1415.65229号
[16] 16.M.Herty、T.Trimborn和G.Visconti,《神经微分方程的Mean-field和动力学描述》,《数据科学基础》,第4卷,第2期,第271-298页,2022年·Zbl 1489.35280号
[17] 17.J.Crevat,空间扩展Fitzhugh-Nagumo神经网络的平均场极限,Kinet。相关。《模型》,第12卷,第6期,第1329-1358页,2019年·Zbl 1432.92003年
[18] 18.S.Mei、A.Montanari和P.-M.Nguyen,两层神经网络景观的平均视野,Proc。国家。阿卡德。科学。美国,第115卷,第33期,第E7665-E7671页,2018年·Zbl 1416.92014号
[19] 19.J.Sirignano和K.Spiliopoulos,《神经网络的平均场分析:大数定律》,SIAM J.Appl。数学。,第80卷,第2期,第725-752页,2020年·兹比尔1440.60008
[20] 20.J.Sirignano和K.Spiliopoulos,神经网络的平均场分析:中心极限定理,随机过程。申请。,第130卷,第3期,第1820-1852页,2020年·Zbl 1441.60022号
[21] 21.F.Baccelli和T.Taillefimier,基于强度的神经网络的复制场限值,SIAM J.Appl。动态。系统。,第18卷,第4期,第1756-1797页,2019年·Zbl 1435.92004年
[22] 22.T.Trimborn、S.Gerster和G.Visconti,研究无限层剩余神经网络鲁棒性的谱方法,《数据科学基础》,第2卷,第3期,第257-278页,2020年。
[23] 23.E.Cristiani、B.Piccoli和A.Tosin,《行人动力学的多尺度建模》。施普林格,查姆,2014年·Zbl 1314.00081号
[24] 24.K.He,X.Zhang,S.Ren和J.Sun,图像识别的深度剩余学习,2016 IEEE计算机视觉和模式识别会议(CVPR),第770-778页,2015年。
[25] 25.E.Haber、F.Lucka和L.Ruthotto,《永不回头——一种改进的EnKF方法及其在无反向传播的神经网络训练中的应用》。预印arXiv:1805.080342018。
[26] 26.N.B.Kovachki和A.M.Stuart,合集卡尔曼反演:机器学习任务的无导数技术,反演问题。,第35卷,第9期,第095005页,2019年·Zbl 1430.68266号
[27] 27.K.Watanabe和S.G.Tzafestas,《带卡尔曼滤波器的神经网络学习算法》,J.Intell。机器人。系统。,第3卷,第4期,第305-319页,1990年。
[28] 28.A.Yegenoglu、S.Diaz、K.Krajsek和M.Herty,Ensemble Kalman filter Optimization deep neural networks,《机器学习、优化和数据科学会议》,第12514卷,2020年。
[29] 29.K.Janocha和W.M.Czarnecki,关于分类中深层神经网络的损失函数,Schedae Informaticae,2016年第25卷,2017年。
[30] 30.T.Q.Chen、Y.Rubanova、J.Bettencourt和D.K.Duvenaud,神经常微分方程,《神经信息处理系统进展》,第6571-6583页,2018年。
[31] 31.H.Lin和S.Jegelka,Resnet with one neuron hidden layers is a universal approxior,p.6172–€“6181,Red Hook,NY,USA:Curran Associates Inc.,2018年。
[32] 32.Y.Lu和J.Lu,用于表示概率分布的深度神经网络的通用近似定理,摘自《神经信息处理系统进展》(H.Larochelle、M.Ranzato、R.Hadsell、M.F.Balcan和H.Lin编辑),第33卷,第3094-3105页,Curran Associates,Inc.,2020年。
[33] 33.P.Kidger和T.Lyons,《深窄网络的通用近似法》,学习理论会议,2020年。
[34] 34.C.Gebhardt、T.Trimborn、F.Weber、A.Bezold、C.Broeckmann和M.Herty,微观结构-疲劳关系数据驱动预测的简化ResNet方法,材料力学,第151卷,第1036252020页。
[35] 35.K.Bobzin、W.Wiether、H.Heinemann、S.Dokhanchi、M.Rom和G.Visconti,基于机器学习的等离子喷涂颗粒特性预测,《热喷涂技术杂志》,2021年。
[36] 36.L.Ambrosio、N.Gigli和G.Savaré,度量空间和概率测度空间中的梯度流。数学讲座ETH ZáA¼rich,BirkháAáuser,2。2008年编辑·Zbl 1145.35001号
[37] 37.C.维拉尼,《最佳交通:新旧》。Springer-Verlag,2009年·Zbl 1156.53003号
[38] 38.F.Golse,《宏观和大尺度现象:粗粒化、平均场极限和遍历性》,关于平均场极限下大粒子系统的动力学,第1-144页,施普林格,2016年。
[39] 39.J.M.Coron,《控制与非线性》。美国数学学会,2007年·Zbl 1140.93002号
[40] 40.E.Zuazua,《偏微分方程的可控性和可观测性:一些结果和开放问题》,《微分方程手册:演化方程》第3卷,第527-621页,北荷兰,2007年·Zbl 1193.35234号
[41] 41.N.Fournier和A.Guillin,《关于经验测度的wasserstein距离的收敛速度》,《概率论及相关领域》,第162卷,第3期,第707-738页,2015年·Zbl 1325.60042号
[42] 42.E.Boissard,1-wasserstain距离内经验测度和占领测度收敛的简单界限,《概率论电子期刊》,第16卷,第2296-23332011页·Zbl 1254.60014号
[43] 43.J.Nocedal和S.J.Wright,《数值优化》。施普林格纽约,2010年·Zbl 0930.65067号
[44] 44.I.Cravero、G.Puppo、M.Semplice和G.Visconti,CWENO:平衡定律的一致精确重建,数学。公司。,第87卷,第312期,第1689-1719页,2018年·Zbl 1412.65102号
[45] 45.G.-S.Jiang和C.-W.Shu,加权ENO方案的有效实现,J.Compute。物理。,第126卷,第202-228页,1996年·Zbl 0877.65065号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。