×

神经微分方程的平均场和动力学描述。 (英语) Zbl 1489.35280号

摘要:目前,神经网络作为学习任务的人工智能模型在许多应用中得到了广泛应用。由于典型的神经网络处理大量数据,因此在平均场和动力学理论中对其进行表述是很方便的。在这项工作中,我们重点关注一类特殊的神经网络,即残差神经网络,假设每一层的特征是具有相同数量的神经元(N),其由数据的维数固定。该假设允许将剩余神经网络解释为时间离散的常微分方程,与神经微分方程类似。然后在无限多输入数据的限制下获得平均场描述。这导致了一个描述输入数据分布演变的Vlasov型偏微分方程。我们分析了网络参数的稳态和灵敏度,即权重和偏差。在线性激活函数和一维输入数据的简单设置中,对矩的研究为网络参数的选择提供了见解。此外,受随机剩余神经网络启发,对微观动力学进行了修改,得出了网络的福克-普朗克公式,其中,网络训练的概念被拟合分布的任务所取代。通过人工数值模拟验证了所进行的分析。特别是,给出了关于分类和回归问题的结果。

MSC公司:

83年第35季度 弗拉索夫方程
84年第35季度 福克-普朗克方程
90立方厘米 灵敏度、稳定性、参数优化
92B20型 生物研究、人工生命和相关主题中的神经网络

软件:

火炬差异
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] D.Araújo、R.I.Oliveira和D.Yukimura,某些深层神经网络的平均场极限,arXiv预印本,arXiv:1906.001932019。
[2] L.Arlotti;N.贝洛莫;E.De Angelis,广义动力学(boltzmann)模型:数学结构和应用,数学。模型方法应用。科学。,12, 567-591 (2002) ·Zbl 1174.82325号 ·doi:10.1142/S021820502001799
[3] N.Bellomo、A.Marsan和A.Tosin,复杂系统与社会:建模与仿真施普林格出版社,2013年·Zbl 1328.00108号
[4] K.Bobzin;W.Wiether;H.海涅曼;S.Dokhanchi;M.Rom;G.Visconti,基于机器学习的等离子喷涂颗粒特性预测,《热喷涂技术杂志》,301751-1764(2021)·doi:10.1007/s11666-021-01239-2
[5] J.A.Carrillo;M.Fornasier;托斯卡尼;F.Vecil,群集的粒子、动力学和流体动力学模型,社会经济和生命科学中集体行为的数学建模,297-336(2010)·Zbl 1211.91213号 ·doi:10.1007/978-0-8176-4946-3_12
[6] 陈振清,Y.鲁巴诺娃,J.Bettencourt和D.K.Duvenaud,神经常微分方程,In神经信息处理系统研究进展, (2018), 6571-6583.
[7] Y.Chen;李伟,具有连续样本空间的统计流形的最优输运自然梯度,Inf.Geom。,3, 1-32 (2020) ·Zbl 1450.62009年 ·doi:10.1007/s41884-020-00028-0
[8] R.M.科伦坡;M.Mercier;M.D.Rosini,一般标量平衡定律的稳定性和总变差估计,Commun。数学。科学。,7, 37-65 (2009) ·Zbl 1183.35197号 ·doi:10.4310/CMS.2009.v7.n1.a2
[9] I.克拉维罗;G.Puppo;M.Semplice;G.Visconti,CWENO:平衡定律的统一精确重建,数学。公司。,87, 1689-1719 (2018) ·兹比尔1412.65102 ·doi:10.1090/com/3273
[10] P.Degond;S.Motsch,鱼类行为的持续转向游走模型的大规模动力学,J.Stat.Phys。,131, 989-1021 (2008) ·Zbl 1214.82075号 ·doi:10.1007/s10955-008-9529-8
[11] G.迪马尔科;G.Toscani,《酒精消费动力学模型》,J.Stat.Phys。,177, 1022-1042 (2019) ·Zbl 1431.35209号 ·doi:10.1007/s10955-019-02406-0
[12] Y.Dukler,W.Li,A.Lin和G.Montüfar,Wasserstein学习生成模型的损失,In机器学习国际会议, (2019), 1716-1725.
[13] H.I.Fawaz、G.Forestier、J.Weber、L.Idoumghar和P.-A.Muller,利用合成数据进行深度残差网络时间序列分类的数据增强,arXiv预印本,arXiv:1808.024552018。
[14] C.Gebhardt;T.Trimborn;F.Weber;A.贝佐德;C.Broeckmann;M.Herty,微观结构-疲劳关系数据驱动预测的简化ResNet方法,材料力学,151103625(2020)·doi:10.1016/j.mechmat.2020.103625
[15] J.Goldberger和E.Ben-Reuven,使用噪声适应层训练深层神经网络,InICLR公司, 2017.
[16] F.Golse,关于平均场极限下大粒子系统的动力学,in宏观和大规模现象:粗粒度、平均场极限和遍历性, (2016), 1-144.
[17] S.-Y.Ha;S.Jin;D.Kim,基于一阶共识的全局优化算法的收敛性,数学。模型方法应用。科学。,30, 2417-2444 (2020) ·Zbl 1467.90040号 ·doi:10.1142/S0218202520500463
[18] E.Haber,F.Luka和L.Ruthotto,Never look back-A modified EnKF方法及其在无反向传播神经网络训练中的应用,Preprint,arXiv:1805.080342018。
[19] K.He;X.Zhang;任正非;J.Sun,图像识别的深度剩余学习,2016年IEEE计算机视觉和模式识别会议(CVPR),770-778(2016)·doi:10.1109/CVPR.2016.90
[20] M.Herty,A.Thünen,T.Trimborn和G.Visconti,在大输入数据的情况下残差神经网络的连续极限,arXiv预印本,arXiv:2112.14152021。
[21] M.Herty;G.Visconti,反问题的动力学方法,Kinet。相关。型号,121109-1130(2019)·Zbl 1420.35417号 ·doi:10.3934/krm.2019042
[22] P.-E.Jabin,关于vlasov方程平均场极限的综述,Kinet。相关。模型,7661-711(2014)·Zbl 1318.35129号 ·doi:10.3934/krm.2014.7.661
[23] K.Janocha;W.M.Czarnecki,关于分类中深层神经网络的损失函数,Schedae Informaticae,25(2016)·doi:10.4467/20838476SI.16.004.6185
[24] G.-S.Jiang;C.-W.Shu,加权ENO方案的高效实现,J.Compute。物理。,126, 202-228 (1996) ·Zbl 0877.65065号 ·文件编号:10.1006/jcph.1996.0130
[25] M.I.约旦;T.M.Mitchell,《机器学习:趋势、观点和前景》,《科学》,349255-260(2015)·Zbl 1355.68227号 ·doi:10.1126/science.aaa8415
[26] A.V.Joshi,机器学习与人工智能斯普林格出版社,2020年·Zbl 1485.68003号
[27] P.Kidger和T.Lyons,深窄网络的通用近似,In学习理论会议, 2020.
[28] N.B.Kovachki和A.M.Stuart,合集卡尔曼反演:机器学习任务的无导数技术,反向Probl.,35(2019),095005,35页·Zbl 1430.68266号
[29] A.Kurganov;D.Levy,守恒定律和对流扩散方程的三阶半离散中心格式,SIAM J.Sci。计算。,22, 1461-1488 (2000) ·Zbl 0979.65077号 ·doi:10.1137/S1064827599360236
[30] D.利维;G.Puppo;G.Russo,多维守恒定律的紧凑中央WENO方案,SIAM J.Sci。计算。,22, 656-672 (2000) ·Zbl 0967.65089号 ·doi:10.1137/S1064827599359461
[31] A.T.Lin、S.W.Fung、W.Li、L.Nurbekyan和S.J.Osher,Apac-net:通过两个神经网络交替进行种群和代理控制,以解决高维随机平均场博弈,程序。国家。阿卡德。科学.,118(2021),论文编号e2024713118,10页。
[32] A.T.Lin,W.Li,S.Osher和G.Montüfar,Wasserstein gans近端,In国际信息几何科学会议, (2021), 524-533. ·Zbl 07495252号
[33] H.Lin和S.Jegelka,具有单神经元隐藏层的Resnet是一个通用逼近器,NIPS’18,美国纽约州红钩,Curran Associates Inc, (2018), 6172-6181.
[34] Y.Lu和J.Lu,表示概率分布的深度神经网络的通用逼近定理,神经信息处理系统研究进展,Curran Associates,Inc.,33(2020),3094-3105。
[35] Y.Lu;A.钟;Q.Li;B.Dong,《超越有限层神经网络:桥接深层结构和数值微分方程》,第35届机器学习国际会议,ICML 2018,2018,5181-5190(2018)
[36] S.Mei;A.蒙塔纳里;P.-M.Nguyen,两层神经网络景观的平均场视图,Proc。国家。阿卡德。科学。,115, 7665-7671 (2018) ·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[37] S.Mishra,用于数据驱动的微分方程计算加速的机器学习框架,数学。工程,118-146(2019)·Zbl 1435.68279号 ·doi:10.3934/Mine.2018.1.118
[38] V.C.Müller和N.Bostrom,《人工智能的未来进展:专家意见调查》,年人工智能的基本问题,Springer,[查姆],376(2016),553-570。
[39] H.Noh,T.You,J.Mun和B.Han,通过噪声正则化深层神经网络:其解释和优化,神经信息处理系统的进展30,Curran Associates,Inc.,(2017),5109-5118。
[40] S.C.Onar,A.Ustundag,圣彼得堡。Kadaifci和B.Oztaysi,《工业4.0时代工程教育的角色变化》,年工业4.0:管理数字化转型施普林格,(2018),137-151。
[41] F.Otto;C.Villani,talagrand对不等式的推广以及与对数sobolev不等式的联系,J.Funct。分析。,173, 361-400 (2000) ·Zbl 0985.58019号 ·doi:10.1006/jfan.1999.3557
[42] L.Pareschi;G.Toscani,非保守动力学模型中的自相似性和类幂尾,J.Stat.Phys。,124, 747-779 (2006) ·Zbl 1134.82037号 ·doi:10.1007/s10955-006-9025-y
[43] D.雷;J.S.Hesthaven,作为故障细胞指示器的人工神经网络,J.Compute。物理。,367, 166-191 (2018) ·Zbl 1415.65229号 ·doi:10.1016/j.jp.2018.04.029
[44] D.Ray和J.S.Hesthaven,使用神经网络检测二维非结构化网格上的故障细胞,J.计算。物理.,397(2019),108845,31页·Zbl 1453.65301号
[45] 卢瑟托;E.Haber,偏微分方程驱动的深层神经网络,J.Math。成像视觉。,62352-364(2020)·Zbl 1434.68522号 ·doi:10.1007/s10851-019-00903-1
[46] 卢瑟托;S.Osher;李伟;L.Nurbekyan;S.W.Fung,用于解决高维平均场博弈和平均场控制问题的机器学习框架,Proc。国家。阿卡德。科学。,117, 9183-9193 (2020) ·doi:10.1073/pnas.1922204117
[47] R.Schmitt和G.Schuh。,生产研究进展,德国生产技术学术协会(WGP)第八届大会会议记录斯普林格出版社,2018年。
[48] J.Sirignano;K.Spiliopoulos,神经网络的平均场分析:中心极限定理,随机过程。申请。,1301820-1852(2020)·Zbl 1441.60022号 ·doi:10.1016/j.spa.2019.06.003
[49] H.特尔坎;T.Al Khawli;埃佩尔特大学;C.Büscher;梅森;S.Jeschke,《利用机器学习技术改进激光切割工艺设计》,生产工程,11,195-203(2017)·doi:10.1007/s11740-017-0718-7
[50] G.Toscani,意见形成的动力学模型,Commun。数学。科学。,4, 481-496 (2006) ·Zbl 1195.91128号 ·doi:10.4310/CMS.2006.v4.n3.a1
[51] C.Totzeck,基于共识的优化趋势,arXiv预印本,arXiv:2104.013832021·Zbl 1474.90363号
[52] D.Tran、M.W.Dusenberry、M.V.D.Wilk和D.Hafner。贝叶斯层:神经网络不确定性模块NeurIPS公司, 2019.
[53] T.Trimborn;S.Gerster;G.Visconti,研究无限层剩余神经网络鲁棒性的谱方法,数据科学基础,2257-278(2020)·doi:10.3934/fods.20200012
[54] Q.Wang;J.S.Hesthaven;D.Ray,使用人工神经网络对非定常流动进行非侵入降阶建模,并应用于燃烧问题,J.Compute。物理。,384, 289-307 (2019) ·Zbl 1459.76117号 ·doi:10.1016/j.jp.2019.01.031
[55] 王毅,李文伟,信息牛顿流:概率空间中的二阶优化方法,arXiv预印本,arXiv:2001.043412020。
[56] 渡边捷昭;S.G.Tzafestas,《带卡尔曼滤波器的神经网络学习算法》,J.Intell。机器人。系统。,3, 305-319 (1990) ·doi:10.1007/BF00439421
[57] P.J.Werbos,反向传播的根源:从有序导数到神经网络和政治预测,第1卷。John Wiley&Sons,1994年。
[58] M.Wooldridge,人工智能需要的不仅仅是深度学习——但究竟是什么?,人工智能,289103386(2020)·doi:10.1016/j.artint.2020.103386
[59] 吴宗宪;C.沈;A.Van Den Hengel,更广或更深:重新审视视觉识别的resnet模型,模式识别,90,119-133(2019)·doi:10.1016/j.patcog.2019.01.006
[60] A.Yegenoglu、S.Diaz、K.Krajsek和M.Herty,合集卡尔曼滤波器优化深度神经网络,In机器学习、优化和数据科学会议《Springer LNCS会议记录》,12514(2020)。
[61] Z.You,J.Ye,K.Li,Z.Xu和P.Wang,对抗噪声层:通过添加噪声正则化神经网络,In2019 IEEE图像处理国际会议, (2019), 909-913.
[62] A.Zeng、S.Song、K.-T.Yu、E.Donlon、F.R.Hogan、M.Bauza、D.Ma、O.Taylor、M.Liu和E.Romo等,利用多步抓取和跨域图像匹配机器人在杂波中拾取和放置新物体,in2018年IEEE机器人与自动化国际会议(ICRA), (2018), 1-8.
[63] D.张;郭立群;G.E.Karniadakis,《模态空间中的学习:使用物理信息神经网络求解时间相关随机偏微分方程》,SIAM J.Sci。计算。,42, 639-665 (2020) ·Zbl 1440.60067号 ·doi:10.1137/19M1260141
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。