×

理解和缓解物理信息神经网络中的梯度流病理。 (英语) Zbl 1530.68232号

摘要:神经网络在不同科学领域的广泛应用通常涉及到约束它们以满足某些对称性、守恒定律或其他领域知识。这种约束通常在模型训练过程中被作为软惩罚施加,并有效地充当经验风险损失的特定领域正则化因子。基于物理的神经网络就是这种哲学的一个例子,在这种哲学中,深度神经网络的输出被约束为近似满足一组给定的偏微分方程。在这项工作中,我们回顾了科学机器学习的最新进展,特别关注物理信息神经网络在预测物理系统结果和从噪声数据中发现隐藏物理方面的有效性。我们还确定并分析了此类方法的基本失效模式,该模式与模型训练期间导致不平衡反向传播梯度的数值刚度有关。为了解决这一局限性,我们提出了一种学习率退火算法,该算法在模型训练期间利用梯度统计来平衡复合损失函数中不同项之间的相互作用。我们还提出了一种新的神经网络结构,该结构对这种梯度病理更具弹性。综上所述,我们的发展为受限神经网络的训练提供了新的见解,并在计算物理的一系列问题中,将物理信息神经网络的预测精度提高了50-100倍。本手稿附带的所有代码和数据可在https://github.com/PredictiveIntelligenceLab/GradientPathologiciesPINN(预测智能实验室/梯度病理学PINN).

MSC公司:

68T07型 人工神经网络与深度学习
65M99型 偏微分方程、初值和含时初边值问题的数值方法
65Z05个 科学应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Abadi、P.Barham、J.Chen、Z.Chen、A.Davis、J.Dean、M.Devin、S.Ghemawat、G.Irving、M.Isard等人,《TensorFlow:大规模机器学习系统》,第十二届USENIX操作系统设计与实现研讨会(OSDI 16),2016年,第265-283页。
[2] R.A.Adams和J.J.Fournier,Sobolev空间,纯应用。数学。(Amst)140,爱思唯尔出版社,2003年·Zbl 1098.46001号
[3] B.Alipanahi、A.Delong、M.T.Weirauch和B.J.Frey,通过深度学习预测DNA和RNA-结合蛋白的序列特异性,自然生物技术。,33(2015),第831页。
[4] P.Baldi、P.Sadowski和D.Whiteson,《通过深度学习在高能物理中寻找奇异粒子》,《自然通讯》。,5 (2014), 4308.
[5] D.Balduzzi、S.Racaniere、J.Martens、J.Foerster、K.Tuyls和T.Graepel,《n人不同游戏的机制》,预印本,https://arxiv.org/abs/1802.05642, 2018. ·Zbl 1489.91032号
[6] A.G.Baydin、B.A.Pearlmutter、A.A.Radul和J.M.Siskind,《机器学习中的自动差异化:调查》,J.Mach。学习。决议,18(2018),153·Zbl 06982909号
[7] D.P.Bertsekas,《约束优化与拉格朗日乘子法》,学术出版社,2014年·Zbl 0572.90067号
[8] J.D.Bjorken和S.D.Drell,《相对论量子力学》,麦格劳-希尔出版社,1965年·Zbl 0184.54201号
[9] C.-H.Bruneau和M.Saad,重访2D眼睑驱动腔问题,计算与《流体》,35(2006),第326-348页·Zbl 1099.76043号
[10] C.Canuto、M.Y.Hussaini、A.Quarteroni和T.A.Zang,《光谱方法》,施普林格出版社,2006年·Zbl 1093.76002号
[11] Z.Chen,V.Badrinarayan,C.Y.Lee,A.Rabinovich,《梯度规范:深度多任务网络中自适应损失平衡的梯度归一化》,预印本,https://arxiv.org/abs/1111.00257,2017年。
[12] K.Cho、B.Van Merrie¨nboer、C.Gulcehre、D.Bahdanau、F.Bougares、H.Schwenk和Y.Bengio,《使用RNN编码器-解码器学习短语表示用于统计机器翻译》,预印本,https://arxiv.org/abs/1406.1078, 2014.
[13] J.Donahue、L.Anne Hendricks、S.Guadarrama、M.Rohrbach、S.Venugopalan、K.Saenko和T.Darrell,视觉识别和描述的长期循环卷积网络,《IEEE计算机视觉和模式识别会议论文集》,2015年,第2625-2634页。
[14] L.C.Evans,偏微分方程,AMS,普罗维登斯,RI,1998年·Zbl 0902.35002号
[15] H.Gao,L.Sun,and J.-X.Wang,PhyGeoNet:Physics-Informed Geometry-Adaptive Convolution Neural Networks for Solution Parameterd PDEs on Inregular Domain,预印本,https://arxiv.org/abs/2004.13145, 2020.
[16] C.W.Gear和D.Wells,多速率线性多步骤方法,BIT,24(1984),第484-502页·Zbl 0555.65046号
[17] N.Geneva和N.Zabaras,用物理约束的深度自回归网络建模PDE系统的动力学,J.Compute。物理。,403 (2020), 109056. ·Zbl 1454.65130号
[18] X.Glrot和Y.Bengio,《理解深度前馈神经网络训练的困难》,载《第十三届国际人工智能与统计会议论文集》,2010年,第249-256页。
[19] I.Goodfellow、Y.Bengio和A.Courville,《深度学习》,麻省理工学院出版社,2016年·Zbl 1373.68009号
[20] A.Iserles,微分方程数值分析第一课程,剑桥大学出版社,2009年·Zbl 1171.65060号
[21] E.Kharazmi,Z.Zhang,和G.Karniadakis,《解偏微分方程的变分物理信息神经网络》,预印本,https://arxiv.org/abs/1912.00873, 2019.
[22] D.P.Kingma和J.Ba,Adam:随机优化方法,预印本,https://arxiv.org/abs/1412.6980, 2014.
[23] G.Kissas,Y.Yang,E.Hwuang,W.R.Witschey,J.A.Detre,P.Perdikaris,《心血管血流建模中的机器学习:使用物理信息神经网络从非侵入性4D流MRI数据预测动脉血压》,计算机。方法应用。机械。工程,358(2020),112623·Zbl 1441.76149号
[24] R.Kondor、H.T.Son、H.Pan、B.Anderson和S.Trivedi,学习图的协变合成网络,预印本,https://arxiv.org/abs/1801.02144, 2018.
[25] A.Krizhevsky、I.Sutskever和G.E.Hinton,深度卷积神经网络的ImageNet分类,《神经信息处理系统进展》,2012年,第1097-1105页。
[26] I.E.Lagaris、A.Likas和D.I.Fotiadis,求解常微分方程和偏微分方程的人工神经网络,IEEE Trans。神经网络,9(1998),第987-1000页。
[27] Y.LeCun和Y.Bengio,图像、语音和时间序列的卷积网络,收录于《大脑理论和神经网络手册》,麻省理工学院出版社,1995年,第255-258页。
[28] Z.C.Lipton、J.Berkowitz和C.Elkan,《用于序列学习的递归神经网络评论》,预印本,https://arxiv.org/abs/1506.00019, 2015.
[29] T.Luo和H.Yang,《偏微分方程的双层神经网络:优化和泛化理论》,预印本,https://arxiv.org/abs/2006.15733, 2020.
[30] S.Mallat,理解深卷积网络,Philos。事务处理。罗伊。Soc.A数学。物理学。工程师科学。,374 (2016), 20150203.
[31] M.Mardani、Q.Sun、D.Donoho、V.Papyan、H.Monajemi、S.Vasanawala和J.Pauly,用于压缩成像的神经近端梯度下降,《神经信息处理系统进展》,2018年,第9573-9583页。
[32] P.Mertikopoulos、C.Papadimitriou和G.Piliouras,对抗性正规化学习中的循环,《2018年度ACM-SIAM离散算法研讨会论文集》,SIAM,2018年,第2703-2717页,https://doi.org/10.1137/1.9781611975031.172。 ·Zbl 1403.68200号
[33] S.Mishra和R.Molinaro,用于逼近偏微分方程的物理信息神经网络(PINNs)的泛化误差估计II:一类反问题,预印本,https://arxiv.org/abs-2007.01138, 2020.
[34] J.-C.Nedeкlec,《声学和电磁方程:谐波问题的积分表示》,斯普林格科学与商业媒体,2001年·Zbl 0981.35002号
[35] G.K.Nilsen、A.Z.Munthe-Kaas、H.J.Skaug和M.Brun,张量流中Hessian矩阵的有效计算,预印本,https://arxiv.org/abs/1905.05559, 2019.
[36] N.Parikh和S.Boyd,发现近似算法。趋势优化。,1(2014年),第127-239页。
[37] D.C.Psichogios和L.H.Ungar,过程建模的混合神经网络第一原理方法,AIChE J.,38(1992),第1499-1511页。
[38] A.Radford、L.Metz和S.Chintala,深度卷积生成对抗网络的无监督表征学习,预印本,https://arxiv.org/abs/11110.06434, 2015.
[39] M.Raissi,《深层隐藏物理模型:非线性偏微分方程的深层学习》,J.Mach。学习。第19号决议(2018年),第932-955页·Zbl 1439.68021号
[40] M.Raissi、P.Perdikaris和G.E.Karniadakis,《以物理为基础的神经网络:解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,378(2019),第686-707页·Zbl 1415.68175号
[41] M.Raissi、A.Yazdani和G.E.Karniadakis,《隐藏流体力学:从流动可视化中学习速度和压力场》,《科学》,367(2020),第1026-1030页·Zbl 1478.76057号
[42] L.Sagun、L.Bottou和Y.LeCun,《深度学习中黑森人的特征值:奇点和超越》,预印本,https://arxiv.org/abs/1611.07476, 2016.
[43] F.Scha¨fer和A.Anandkumar,竞争梯度下降,预印本,https://arxiv.org/abs/1905.12103, 2019.
[44] Y.Shin、J.Darbon和G.E.Karniadakis,关于线性二阶椭圆和抛物线型偏微分方程的物理信息神经网络的收敛性,Commun。计算。物理。,28(2020),第2042-2074页·Zbl 1473.65349号
[45] Y.Shin,Z.Z.Zhang和G.E.Karniadakis,使用神经网络对线性偏微分方程进行残差最小化的误差估计,预印本,https://arxiv.org/abs/2010.08019, 2020.
[46] D.Silver、J.Schrittwieser、K.Simonyan、I.Antonoglou、A.Huang、A.Guez、T.Hubert、L.Baker、M.Lai、A.Bolton等人,《在没有人类知识的情况下掌握围棋游戏》,《自然》,550(2017),第354-359页。
[47] J.Sirignano和K.Spiliopoulos,DGM:解偏微分方程的深度学习算法,J.Compute。物理。,375(2018),第1339-1364页·Zbl 1416.65394号
[48] G.Strang,《关于差分格式的构造和比较》,SIAM J.Numer。分析。,5(1968年),第506-517页,https://doi.org/10.1137/0705041。 ·Zbl 0184.38503号
[49] L.Sun、H.Gao、S.Pan和J.-X.Wang,基于物理约束的无模拟数据的深度学习的流体流动替代建模,计算。方法应用。机械。工程,361(2020),112732·兹比尔1442.76096
[50] M.Tao、H.Owhadi和J.E.Marsden,通过流平均对具有隐藏慢动力学的刚性常微分方程、SDE和哈密顿系统进行非侵入和保结构的多尺度积分,多尺度模型。模拟。,8(2010),第1269-1324页,https://doi.org/10.1137/090771648。 ·Zbl 1215.65187号
[51] A.M.Tartakovsky、C.O.Marrero、P.Perdikaris、G.D.Tartakowsky和D.Barajas-Solano,《用于地下水流问题中学习参数和本构关系的基于物理的深层神经网络》,《水资源研究》,56(2020),e2019WR026731。
[52] R.K.Tripathy和I.Bilionis,《深度UQ:学习深度神经网络替代模型以进行高维不确定性量化》,J.Compute。物理。,375(2018),第565-588页·兹伯利1419.68084
[53] A.Vaswani、N.Shazeer、N.Parmar、J.Uszkoreit、L.Jones、A.N.Gomez,Ł。Kaiser和I.Polosukhin,《注意力是你所需要的一切》,载于《神经信息处理系统进展》,2017年,第5998-6008页。
[54] S.Wang、X.Yu和P.Perdikaris,《PINN何时以及为什么不能训练:神经切线核的观点》,预印本,https://arxiv.org/abs/2007.14527, 2020.
[55] Y.Yang和P.Perdikaris,物理信息神经网络中的对抗不确定性量化,J.Compute。物理。,394(2019),第136-152页·Zbl 1452.68171号
[56] Y.Zhu、N.Zabaras、P.-S.Koutsourlakis和P.Perdikaris,无标记数据的高维代理建模和不确定性量化的物理约束深度学习,J.Comput。物理。,394(2019),第56-81页·Zbl 1452.68172号
[57] O.C.Zienkiewicz、R.L.Taylor、P.Nithiarasu和J.Zhu,《有限元方法》,第3卷,McGraw-Hill,伦敦,1977年·Zbl 0435.73072号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。