×

关于基于流形的代理和深度神经算子中的过度参数化的影响。 (英语) 兹伯利07660362

摘要:为表现出高度非光滑动力学的复杂物理化学过程构建精确且可推广的近似值(替代模型)是一项挑战。主要的问题是我们应该构建什么类型的代理模型,以及这些模型应该是欠参数化还是过参数化的。在这项工作中,我们提出了两种有前途的方法:基于流形的多项式混沌展开(m-PCE)和深度神经算子(DeepONet)的新发展并进行了比较,并且我们检验了过度参数化对泛化的影响。m-PCE通过首先识别输入函数、参数和感兴趣量(QoIs)的低维嵌入来构造映射,而神经操作员通过使用深层神经网络来学习非线性映射。我们通过求解具有不确定性源的二维含时Brusselator反应扩散系统,模拟两种物质之间的自催化化学反应,证明了这些方法在泛化精度方面的性能。我们首先通过在由输入函数和输出QoI的两个单独嵌入形成的潜在空间之间构造映射来提出m-PCE的扩展。为了进一步提高DeepONet的准确性,我们在损失函数中引入了权重自适应。我们证明,对于相对平滑的输入输出映射,m-PCE和DeepONet的性能是可比较的。然而,当考虑高度非光滑动力学时,DeepONet显示出更高的近似精度。我们还发现,对于m-PCE,适度的过度参数化会导致分布内外更好的泛化,而过度参数化则会导致过度拟合。相比之下,即使是高度参数化的DeepONet,也可以对平滑和非平滑动力学进行更好的泛化。此外,我们将上述模型的性能与最近提出的另一种算子学习模型Fourier Neural operator进行了比较,并表明其过参数化也会导致更好的泛化。总之,我们的研究表明,m-PCE可以在非常低的训练成本下提供非常好的精度,而高度参数化的DeepONet可以提供更好的精度和对噪声的鲁棒性,但训练成本较高。在这两种方法中,推理成本可以忽略不计。

MSC公司:

65立方厘米 概率方法,随机微分方程
68次发射 人工智能
60华氏度 随机分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 陈,P。;北卡罗来纳州扎巴拉斯。;Bilinis,I.,《使用高斯过程和变分贝叶斯推理的无限混合的不确定性传播》,J.Compute。物理。,284, 291-333 (2015) ·Zbl 1351.76277号
[2] Tripathy,R。;Bilinis,I。;Gonzalez,M.,《具有内置降维的高斯过程:高维不确定性传播的应用》,J.Comput。物理。,321, 191-223 (2016) ·Zbl 1349.65049号
[3] Raissi先生。;佩迪卡里斯,P。;Karniadakis,G.E.,含时和非线性偏微分方程的数值高斯过程,SIAM J.Sci。计算。,40、1、A172-A198(2018)·兹比尔1386.65030
[4] 加尼姆,R。;Spanos,P.D.,随机有限元中的多项式混沌,J.Appl。机械。(1990) ·Zbl 0729.73290号
[5] 秀,D。;Karniadakis,G.E.,随机微分方程的Wiener-Askey多项式混沌,SIAM J.Sci。计算。,24619-644(2002年)·Zbl 1014.65004号
[6] Oladyshkin,S。;Nowak,W.,使用任意多项式混沌展开的数据驱动不确定性量化,Reliab。工程系统。安全。,106, 179-190 (2012)
[7] 郑,M。;万,X。;Karniadakis,G.E.,带离散测度的自适应多元多项式混沌:算法及其在SPDE中的应用,应用。数字。数学。,90, 91-110 (2015) ·Zbl 1326.65140号
[8] Goswami,S。;Ghosh,S。;Chakraborty,S.,用迭代改进响应面法进行结构可靠性分析,结构。安全。,60, 56-66 (2016)
[9] Goswami,S。;Chakraborty,S。;Ghosh,S.,《不确定性下结构响应近似中的自适应响应面法》(国际结构工程与力学会议(2013)),194-202年
[10] Giovanis,D.G。;Shields,M.D.,在格拉斯曼流形上使用高斯过程回归的高维模型的数据驱动代理,计算。方法应用。机械。工程,370,第113269条pp.(2020)·Zbl 1506.62549号
[11] Kontolati,K。;Loukrezis,D。;多斯桑托斯,K.R。;Giovanis,D.G。;Shields,M.D.,高维代理模型基于流形学习的多项式混沌展开(2021),arXiv预印本·Zbl 1498.62358号
[12] Di Leoni,P.C。;卢,L。;Meneveau,C。;卡尼亚达基斯,G。;Zaki,T.A.,高速边界层中线性不稳定波的Deeponet预测(2021),arXiv预印本
[13] 奥利维尔,A。;屏蔽,医学博士。;Graham-Brady,L.,数据驱动材料建模中不确定性量化的贝叶斯神经网络,计算。方法应用。机械。工程,386,第114079条pp.(2021)·兹比尔1507.65021
[14] 拉塔尼奥蒂斯,C。;马雷利,S。;Sudret,B.,《通过监督降维将经典替代模型扩展到高维:数据驱动方法》,《国际不确定性杂志》。量化。,10, 1 (2020) ·Zbl 1498.62109号
[15] Kontolati,K。;Loukrezis,D。;Giovanis,D.G。;Vandanapu,L。;Shields,M.D.,《黑盒问题中高维不确定性量化的无监督学习方法调查》(2022年),arXiv预印本·兹伯利07540357
[16] Raissi先生。;佩迪卡里斯,P。;Karniadakis,G.E.,《基于物理的神经网络:用于解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,378, 686-707 (2019) ·Zbl 1415.68175号
[17] 塔塔科夫斯基,A.M。;马里罗,哥伦比亚特区。;佩迪卡里斯,P。;塔塔科夫斯基,G.D。;Barajas-Solano,D.,《用于地下水流问题中学习参数和本构关系的基于物理的深层神经网络》,《水资源》。决议,56,5,条款e2019WR026731 pp.(2020)
[18] Chen,C.-T。;Gu,G.X.,利用反向传播和主动学习进行逆向材料设计的生成性深层神经网络,高级科学。,第7、5条,第1902607页(2020年)
[19] 江,J。;陈,M。;Fan,J.A.,《光子器件评估和设计的深层神经网络》,《自然评论》。,6, 8, 679-700 (2021)
[20] 卢,L。;Jin,P。;庞,G。;张,Z。;Karniadakis,G.E.,基于算子的普遍逼近定理,通过deeponet学习非线性算子,Nat.Mach。整数。,3, 3, 218-229 (2021)
[21] Goswami,S。;尹,M。;Yu,Y。;Karniadakis,G.E.,《预测准脆性材料裂纹路径的基于物理的变分深度》,计算。方法应用。机械。工程,391,第114587条pp.(2022)·Zbl 1507.74383号
[22] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,深度卷积神经网络的Imagenet分类,高级神经信息处理。系统。,25 (2012)
[23] Lanthaler,S。;米什拉,S。;Karniadakis,G.E.,《DeepONets的错误估计:无限维的深度学习框架》(2021),arXiv预印本
[24] Neyshabur,B。;李,Z。;博贾纳帕利,S。;LeCun,Y。;Srebro,N.,《过度参数化在神经网络泛化中的作用》(学习表征国际会议(2018))
[25] 杜,S。;Lee,J.,《关于二次激活神经网络的过参数化能力》,(机器学习国际会议,机器学习国际大会,PMLR(2018)),1329-1338
[26] Poggio,T。;班伯斯基,A。;廖,Q.,深度网络中的理论问题,Proc。国家。阿卡德。科学。,117, 48, 30039-30045 (2020) ·Zbl 1485.68235号
[27] Dar,Y。;穆图库马尔,V。;Baraniuk,R.G.,《告别偏差-方差权衡》?过度参数化机器学习理论综述(2021),arXiv预印本
[28] 北卡罗来纳州汤普森。;Greenewald,K。;Lee,K。;Manso,G.F.,深度学习的计算极限(2020),arXiv预印本
[29] 贝尔金,M。;徐,D。;马,S。;Mandal,S.,《协调现代机器学习实践和经典偏差-方差权衡》,Proc。国家。阿卡德。科学。,116, 32, 15849-15854 (2019) ·Zbl 1433.68325号
[30] Bubeck,S。;Sellke,M.,《通过等参法的鲁棒性通用法则》,《高级神经信息处理》。系统。,34 (2021)
[31] 李,Z。;科瓦奇奇,N。;Azizzadenesheli,K。;刘,B。;巴塔查亚,K。;Stuart,A。;Anandkumar,A.,参数偏微分方程的傅立叶神经算子(2020),arXiv预印本
[32] 卢,L。;X孟。;蔡,S。;毛,Z。;Goswami,S。;张,Z。;Karniadakis,G.E.,基于公平数据(2021年)的两个神经算子的全面公平比较,arXiv预印本
[33] 奥利维尔,A。;Giovanis,D。;Aakash,B。;Chauhan,M。;Vandanapu,L。;Shields,M.D.,UQpy:用于不确定性量化的通用Python包和开发环境,J.Compute。科学。,第47条,第101204页(2020年)
[34] 林,C。;李,Z。;卢,L。;蔡,S。;马克西,M。;Karniadakis,G.E.,预测多尺度气泡生长动力学的算子学习,J.Chem。物理。,154,10,第104118条pp.(2021)
[35] 麦克伦尼,L。;Braga-Neto,U.,使用软注意机制的自适应物理信息神经网络(2020年),arXiv预印本
[36] Bobrowski,A.,《概率和随机过程的函数分析:导论》(2005),剑桥大学出版社·Zbl 1092.46001号
[37] 万,X。;Karniadakis,G.E.,任意概率测度的多元广义多项式混沌,SIAM J.Sci。计算。,28, 3, 901-928 (2006) ·Zbl 1128.65009号
[38] Soize,C。;Ghanem,R.,《具有随机不确定性的物理系统:具有任意概率测度的混沌表示》,SIAM J.Sci。计算。,26, 2, 395-410 (2004) ·Zbl 1075.60084号
[39] 康斯坦丁,P.G。;埃尔德雷德,M.S。;Phipps,E.T.,稀疏伪谱近似方法,计算。方法应用。机械。工程,229,1-12(2012)·Zbl 1253.65117号
[40] 康拉德,P.R。;Marzouk,Y.M.,自适应Smolyak伪谱近似,SIAM J.Sci。计算。,第35页,第6页,第643-A2670页(2013年)·Zbl 1294.41004号
[41] Winokur,J。;Kim,D。;比塞蒂,F。;Le Maêtre,O.P。;Knio,O.M.,《不确定性量化方向自适应稀疏伪光谱投影方法》,科学杂志。计算。,68, 2, 596-623 (2016) ·Zbl 1371.65015号
[42] Buzzard,G.T.,稀疏网格插值多项式的有效基变换及其在T细胞敏感性分析中的应用,计算。生物杂志,2013(2013)
[43] Loukrezis,D。;De Gersem,H.,通过Leja插值的自适应稀疏多项式混沌展开(2019),arXiv预印本
[44] 布拉特曼,G。;Sudret,B.,基于最小角度回归的自适应稀疏多项式混沌展开,J.Compute。物理。,230, 6, 2345-2367 (2011) ·Zbl 1210.65019号
[45] Loukrezis,D。;Galetzka,A。;De Gersem,H.,《高频应用中的鲁棒自适应最小二乘多项式混沌展开》,国际期刊数值。型号。,33,6,第2725条pp.(2020)
[46] J.汉普顿。;Doostan,A.,基自适应采样有效多项式混沌(BASE-PC),J.Compute。物理。,371, 20-49 (2018) ·Zbl 1415.65028号
[47] 迪亚兹,P。;Doostan,A。;Hampton,J.,《通过压缩传感和d-最优设计实现稀疏多项式混沌展开》,计算。方法应用。机械。工程师,336,640-666(2018)·Zbl 1441.65005号
[48] Hadigol,M。;Doostan,A.,《最小二乘多项式混沌展开:抽样策略综述》,计算。方法应用。机械。工程,332382-407(2018)·Zbl 1440.65007号
[49] He,W。;曾勇。;Li,G.,用于高维可靠性分析的自适应多项式混沌展开,结构。多磁盘。优化。,62, 4, 2051-2067 (2020)
[50] 齐利维斯,P。;欢,X。;萨夫塔,C。;Sargsyan,K。;拉卡泽,G。;Oefelein,J.C。;Najm,H.N。;Ghanem,R.G.,多项式混沌展开的压缩传感自适应,J.Compute。物理。,380, 29-47 (2019) ·Zbl 1451.62032号
[51] 里夫金,R.M。;Lippert,R.A.,正则最小二乘法注释(2007),麻省理工学院计算机科学和人工智能实验室,MIT-CSAILTR-2007-025技术报告
[52] Schölkopf,B。;Smola,A。;Müller,K.-R.,《核主成分分析》(International Conference on Artificial Neural Networks,1997),施普林格出版社,583-588
[53] Hoffmann,H.,用于新颖性检测的核PCA,模式识别。,40, 3, 863-874 (2007) ·Zbl 1118.68140号
[54] Bishop,C.M.,模式识别和机器学习(2006),Springer·Zbl 1107.68072号
[55] Prigogine,I.,《时间、结构和波动》,《科学》,201,4358,777-785(1978)
[56] 艾哈迈德,N。;拉菲克,M。;Rehman,M。;伊克巴尔,M。;Ali,M.,三维布鲁塞尔反应扩散系统的数值模拟,AIP Adv.,9,1,Article 015205 pp.(2019)
[57] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J.Mach。学习。第12号决议,2825-2830(2011年)·Zbl 1280.68189号
[58] 万,X。;Karniadakis,G.E.,随机微分方程的自适应多元广义多项式混沌方法,J.Comput。物理。,209, 2, 617-642 (2005) ·Zbl 1078.65008号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。