×

深度运营商网络的改进架构和培训算法。 (英语) 兹比尔07550028

摘要:算子学习技术最近已成为学习无穷维Banach空间之间映射的强大工具。经过适当的约束训练,他们还可以以完全自主的方式有效地学习偏微分方程(PDE)的解算子。在这项工作中,我们通过神经切线核理论分析了深度算子网络(DeepONets)的训练动力学,并揭示了有利于更大幅度函数逼近的偏差。为了纠正这种偏差,我们建议自适应地重新衡量每个训练示例的重要性,并演示此过程如何通过梯度下降有效地平衡训练期间反向传播梯度的大小。我们还提出了一种新的网络架构,它对消失的梯度病理更有弹性。综上所述,我们的开发为DeepONet的培训提供了新的见解,并持续将其预测准确性提高了10–50倍,这在缺乏成对输入输出观察的情况下学习PDE解决方案操作符的挑战性环境中得到了证明。本手稿附带的所有代码和数据将在https://github.com/PredictiveIntelligenceLab/改进的DeepONets.

MSC公司:

6500万 偏微分方程、初值和含时初边值问题的数值方法
68泰克 人工智能
65磅 常微分方程的数值解法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Lanthaler,S.、Mishra,S.和Karniadakis,G.E.:DeepONet的错误估计:无限维的深度学习框架。arXiv预打印arXiv:2102.09618(2021)·Zbl 07525076号
[2] Kovachki,N.,Lanthaler,S.,Mishra,S.:关于傅里叶神经算子的普遍逼近和误差界。arXiv预打印arXiv:2107.07562(2021)
[3] Yu,A.,Becquey,C.,Halikias,D.,Mallory,M.E.,Townsend,A.:算子神经网络的任意深度通用逼近定理。arXiv预打印arXiv:2109.11354(2021)
[4] Lu,L.等人。;Jin,P。;庞,G。;张,Z。;Karniadakis,GE,基于算子的普遍逼近定理,通过DeepONet学习非线性算子,Nat.Mach。整数。,3, 3, 218-229 (2021) ·doi:10.1038/s42256-021-00302-5
[5] Kovachki,N.、Li,Z.、Liu,B.、Azizzadenesheli,K.、Bhattacharya,K.,Stuart,A.、Anandkumar,A.:神经运算符:函数空间之间的学习映射。arXiv预打印arXiv:2108.08481(2021)
[6] Owhadi,H.:想法有形状吗?柏拉图的形式理论是人工神经网络的连续极限。arXiv预打印arXiv:2008.03920(2020)
[7] Kadri,H。;迪弗洛斯,E。;普鲁克斯,P。;卡努,S。;阿科托马蒙杰,A。;Audiffren,J.,《从功能响应数据学习的算子值核》,J.Mach。学习。第17、20、1-54号决议(2016年)·Zbl 1360.68682号
[8] 王,S。;Wang,H。;Perdikaris,P.,利用物理学学习参数偏微分方程的解算子,DeepONets,Sci。高级,7,40,eabi8605(2021)·doi:10.1126/sciadv.abi8605
[9] Wang,S.,Perdikaris,P.:参数演化方程与基于物理的DeepONet的长期积分。arXiv预打印arXiv:2106.05384(2021)
[10] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。载:《第十三届国际人工智能与统计会议论文集》,第249-256页。JMLR研讨会和会议记录(2010年)
[11] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习。摘自:IEEE计算机视觉和模式识别会议记录,第770-778页(2016)
[12] Ioffe,S.,Szegedy,C.:批量规范化:通过减少内部协变量的转移来加速深层网络训练。摘自:机器学习国际会议,第448-456页。PMLR(2015)
[13] Salimans,T。;Kingma,DP,权重归一化:一种简单的重新参数化,用于加速深层神经网络的训练,高级神经信息处理。系统。,29,901-909(2016)
[14] 乐村,YA;博图,L。;Orr,GB;米勒,韩国;蒙塔文,G。;Orr,GB;穆勒,KR,高效后盾,神经网络:交易技巧,9-48(2012),柏林:施普林格出版社,柏林·doi:10.1007/978-3-642-35289-83
[15] Di Leoni,P.C.,Lu,L.,Meneveau,C.,Karniadakis,G.,Zaki,T.A.:高速边界层线性不稳定波的DeepONet预测。arXiv预打印arXiv:2105.08697(2021)
[16] Li,Z.,Kovachki,N.,Azizzadenesheli,K.,Liu,B.,Bhattacharya,K.、Stuart,A.,Anandkumar,A.:参数偏微分方程的傅里叶神经算子。arXiv预印本arXiv:2010.08895(2020)
[17] 王,S。;Teng,Y。;Perdikaris,P.,《理解和缓解物理信息神经网络中的梯度流病理学》,SIAM J.Sci。计算。,43、5、A3055-A3081(2021)·Zbl 1530.68232号 ·数字对象标识代码:10.1137/20M1318043
[18] Wang,S.,Yu,X.,Perdikaris,P.:PINN何时以及为什么不能训练:神经切线核的观点。arXiv预打印arXiv:2007.14527(2020)·Zbl 07524768号
[19] McClenny,L.,Braga-Neto,U.:使用软注意机制的自适应物理信息神经网络。arXiv预印arXiv:2009.04544(2020)
[20] 王,S。;Perdikaris,P.,《自由边界和Stefan问题的深度学习》,J.Compute。物理。,428, 109914 (2021) ·Zbl 07511408号 ·doi:10.1016/j.jcp.2020.109914
[21] Jacot,A.,Gabriel,F.,Hongler,C.:神经切线核:神经网络中的收敛和泛化。在:神经信息处理系统的进展,第8571-8580页(2018)
[22] Du,S.,Lee,J.,Li,H.,Wang,L.,Zhai,X.:梯度下降法发现深层神经网络的全局极小值。摘自:国际机器学习会议,第1675-1685页。PMLR(2019)
[23] Allen-Zhu,Z.,Li,Y.,Song,Z.:通过过度参数化进行深度学习的收敛理论。摘自:机器学习国际会议,第242-252页。PMLR(2019)
[24] 曹,Y.,Fang,Z.,Wu,Y.、Zhou,D.-X.,Gu,Q.:理解深度学习的谱偏向。arXiv预印本arXiv:1912.01198(2019)
[25] Xu,Z.-Q.J.、Zhang,Y.、Luo,T.、Xiao,Y.,Ma,Z.:频率原理:傅里叶分析揭示了深层神经网络。arXiv预印本arXiv:1901.06523(2019)·Zbl 1507.68279号
[26] Rahaman,N.、Baratin,A.、Arpit,D.、Draxler,F.、Lin,M.、Hamprecht,F.,Bengio,Y.、Courville,A.:关于神经网络的光谱偏差。摘自:机器学习国际会议,第5301-5310页(2019年)
[27] Lee,J.、Xiao,L.、Schoenholz,S.、Bahri,Y.、Novak,R.、Sohl-Dickstein,J.和Pennington,J.:任意深度的宽神经网络在梯度下降下演化为线性模型。摘自:《神经信息处理系统进展》,第8572-8583页(2019年)·Zbl 07330523号
[28] Wang,S.,Wang,H.,Perdikaris,P.:关于傅里叶特征网络的特征向量偏差:从回归到用物理信息神经网络求解多尺度偏微分方程。arXiv预印arXiv:2012.10047(2020)·Zbl 1506.35130号
[29] Chen,T。;Chen,H.,具有任意激活函数的神经网络对非线性算子的普遍逼近及其在动力系统中的应用,IEEE Trans。神经网络。,6, 4, 911-917 (1995) ·doi:10.1109/72.392253
[30] Baydin,AG公司;Pearlmutter,文学学士;Radul,AA;Simkind,JM,《机器学习中的自动差异化:一项调查》,J.Mach。学习。决议,18,1-43(2018)·Zbl 06982909号
[31] Cai,S.,Wang,Z.,Lu,L.,Zaki,T.A.,Karniadakis,G.E.:Deepm&mnet:基于神经网络的算子近似推断电对流多物理场。arXiv预印arXiv:2009.12935(2020)·Zbl 07513856号
[32] Iserles,A.微分方程数值分析第一课程。第44号。剑桥大学出版社(2009)·Zbl 1171.65060号
[33] Kingma,D.P.,Ba,J.:亚当:随机优化方法。arXiv预印arXiv:1412.6980(2014)
[34] Fort,S.、Dziugaite,G.K.、Paul,M.、Kharaghani,S.,Roy,D.M.、Ganguli,S.:深度学习与内核学习:损失景观几何和神经切线内核时间演化的实证研究。arXiv预印本arXiv:2010.15110(2020)
[35] Leclerc,G.,Madry,A.:深度网络培训的两种制度。arXiv预打印arXiv:2002.10376(2020)
[36] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第12、7、2121-2159号决议(2011年)·兹比尔1280.68164
[37] Cai,T.、Gao,R.、Hou,J.、Chen,S.、Wang,D.、He,D.、Zhang、Wang、L.:Gram-Gauss-Newton方法:学习回归问题的超参数神经网络。arXiv预印本arXiv:1905.11675(2019)
[38] Zhang,G.,Martens,J.,Grosse,R.B.:过参数化神经网络自然梯度下降的快速收敛。In:神经信息处理系统进展,32(2019)
[39] van den Brand,J.,Peng,B.,Song,Z.,Weinstein,O.:在近线性时间内训练(超参数化)神经网络。arXiv预印本arXiv:2006.11648(2020)
[40] Schoenholz,S.S.、Gilmer,J.、Ganguli,S.、Sohl-Dickstein,J.:深度信息传播。arXiv预印arXiv:1611.01232(2016)
[41] Yang,Y.,Perdikaris,P.:基于物理的深层生成模型。arXiv预印arXiv:1812.03511(2018)
[42] Driscoll,T.A.,Hale,N.,Trefethen,法律公告:Chebfun Guide(2014)
[43] 考克斯,SM;Matthews,PC,刚性系统的指数时间差分,J.Compute。物理。,176, 2, 430-455 (2002) ·Zbl 1005.65069号 ·文件编号:10.1006/jcph.2002.6995
[44] Alns,M。;布莱希塔,J。;Hake,J。;Johansson,A。;Kehlet,B。;Logg,A。;Richardson,C。;Ring,J。;罗杰斯,ME;威尔斯,GN,The fenics项目1.5版,Arch。数字。软质。,3, 100, 9-23 (2015)
[45] Shin,Y.,Darbon,J.,Karniadakis,G.E.:关于线性二阶椭圆和抛物线型偏微分方程的物理信息神经网络的收敛性(2020)·Zbl 1473.65349号
[46] Mishra,S.,Molinaro,R.:用于近似偏微分方程的物理信息神经网络(PINN)泛化误差估计。arXiv预打印arXiv:2006.16144(2020)·Zbl 07524707号
[47] 斯洛伐克米图什;Funke,西南;Dokken,JS,dolfin-adjoint 2018.1:fenics和firedrake的自动伴随词,J.Open Sour。软质。,4, 38, 1292 (2019) ·doi:10.21105/joss.01292
[48] Bradbury,J.、Frostig,R.、Hawkins,P.、Johnson,M.J.、Leary,C.、Maclaurin,D.、Necula,G.、Paszke,A.、VanderPlas,J.,Wanderman-Millne,S.、Zhang,Q.:JAX:Python+NumPy程序的可组合转换(2018)
[49] Hunter,JD,Matplotlib:2D图形环境,IEEE Ann.Hist。计算。,9, 3, 90-95 (2007)
[50] 哈里斯,CR;KJ Millman;范德沃尔特,SJ;Gommers,R。;Virtanen,P。;库纳波,D。;威瑟,E。;泰勒,J。;Berg,S。;新泽西州史密斯,《使用NumPy进行数组编程》,《自然》,585、7825、357-362(2020)·doi:10.1038/s41586-020-2649-2
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。