×

用于学习迭代算法的递归递归神经网络(R2N2)结构。 (英语) Zbl 1534.65073号

摘要:给定任务的数值算法的元学习包括算法结构和相关超参数的数据驱动识别和自适应。为了限制元学习问题的复杂性,可以而且应该使用对有利算法结构有一定归纳偏差的神经体系结构。我们将之前引入的Runge-Kutta神经网络推广为递归递归神经网络上层结构,用于定制迭代算法的设计。与现成的深度学习方法相比,它的特点是将信息生成和随后将这些信息组装成解决方案的模块进行了不同的划分。子空间形式的局部信息由下级生成,内部,从当前开始的递归函数求值迭代外面的迭代。下一次外部迭代的更新是作为这些评估的线性组合计算的,减少了该空间中的残差,并构成网络的输出。我们证明了在各种计算问题类的输入/输出数据上对所提出的上层结构内的权重参数进行定期训练会产生类似于线性方程组的Krylov解算器、非线性方程组的Newton-Krylov解算器的迭代,以及常微分方程的Runge-Kutta积分器。由于其模块性,上层结构可以很容易地扩展为所需的功能,以表示传统上基于泰勒级数展开的更一般的迭代算法类。

MSC公司:

65H10型 方程组解的数值计算
65层10 线性系统的迭代数值方法
65升05 常微分方程初值问题的数值方法
65升06 常微分方程的多步、Runge-Kutta和外推方法
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agrawal,A.、Amos,B.、Barratt,S.T.、Boyd,S.P.、Diamond,S.和Kolter,J.Z.,《可微凸优化层》,《神经信息处理系统进展》,第32期,2019年,加拿大温哥华,Wallach,H.M.、Larochelle,H.、Beygelzimer,A.、d'Alché-Buc,F.、Fox,E.B.和Garnett,R.编,Curran Associates,纽约州Red Hook,2019年,第9558-9570页。
[2] Amos,B.和Kolter,J.Z.,《Optnet:作为神经网络层的可微优化》,Proc。机器。学习。研究(PMLR),70(2017),第136-145页。
[3] Andrychowicz,M.、Denil,M.,Colmenarejo,S.G.、Hoffman,M.W.、Pfau,D.、Schaul,T.和de Freitas,N.,通过梯度下降学习梯度下降,摘自《神经信息处理系统进展》2016年第29期,Lee,D.D.、Sugiyama,M.和von Luxburg,U.、Guyon,I.和Garnett,R.编辑,西班牙巴塞罗那,Curran Associates,Red Hook,纽约州,2016年,第3981-3989页。
[4] Balcan,M.,《数据驱动算法设计》,摘自《超越算法的最坏情况分析》,Roughgarden,T.主编,剑桥大学出版社,2020年,第626-645页。
[5] Balcan,M.、Dick,T.、Sandholm,T.和Vitercik,E.,《学习分支》,第35届机器学习国际会议论文集,80(2018),第353-362页。
[6] Baxter,J.,《归纳偏差学习模型》,J.Artif。智力。Res.,12(2000),第149-198页·Zbl 0940.68106号
[7] Belotti,P.、Kirches,C.、Leyffer,S.、Linderoth,J.、Luedtke,J.和Mahajan,A.,《混合整数非线性优化》,《数值学报》。,22(2013),第1-131页·兹比尔1291.65172
[8] Betancourt,M.、Jordan,M.I.和Wilson,A.C.,《辛优化论》,预印本,arXiv:1802.036532018年。
[9] Burre,J.、Bongartz,D.和Mitsos,A.,全球上层建筑优化的MINLP公式比较,Optim。《工程》,第24期(2023年),第801-830页·Zbl 1530.90099
[10] Butcher,J.C.,《常微分方程的数值方法》,第三版,英国奇切斯特威利出版社,2016年·Zbl 1354.65004号
[11] Chang,B.,Meng,L.,Haber,E.,Tung,F.,and Begert,D.,《动态系统视角下的多级剩余网络》,预印本,arXiv:1710.103482017年。
[12] Chen,T.Q.,Rubanova,Y.,Bettencourt,J.和Duvenaud,D.,神经常微分方程,摘自《神经信息处理系统进展》,2018年第31期,加拿大蒙特利尔,Bengio,S.,Wallach,H.M.,Larochelle,H.,Grauman,K.,Cesa-Bianchi,N.和Garnett,R.,eds.,Curran Associates,Red Hook,NY,2018年,第6572-6583页。
[13] Chevalier,S.、Stiasny,J.和Chatzivasileiadis,S.,《收缩神经牛顿解算器》,预印本,arXiv:2160.25432021。
[14] Chu,M.T.,作为动力系统的线性代数算法,《数值学报》。,17(2008),第1-86页·Zbl 1165.65021号
[15] Cortes,C.,Gonzalvo,X.,Kuznetsov,V.,Mohri,M.和Yang,S.,Adanet:人工神经网络的自适应结构学习,Proc。机器。学习。研究(PMLR),70(2017),第874-883页。
[16] Denevi,G.、Ciliberto,C.、Stamos,D.和Pontil,M.,《学习如何围绕共同均值学习》,摘自《神经信息处理系统进展》2018年第31期,加拿大蒙特利尔,Bengio,S.、Wallach,H.M.、Larochelle,H.、Grauman,K.、Cesa-Bianchi,N.和Garnett,R.,eds.,Curran Associates,Red Hook,NY,2018年,第10190-10200页。
[17] Dietrich,F.、Thiem,T.N.和Kevrekidis,I.G.,《关于算法的Koopman算子》,SIAM J.Appl。动态。系统。,19(2020年),第860-885页·Zbl 1437.47048号
[18] Dufera,T.T.,常微分方程系统的深度神经网络:矢量化算法和模拟,马赫数。学习。申请。,5 (2021), 100058.
[19] E、 W.,关于通过动态系统进行机器学习的建议,Commun。数学。《统计》,第5卷(2017年),第1-11页·Zbl 1380.37154号
[20] Elsken,T.、Metzen,J.H.和Hutter,F.,通过Lamarckian进化进行高效多目标神经架构搜索,第七届学习表征国际会议,2019年ICLR,路易斯安那州新奥尔良,机器学习国际会议,加利福尼亚州圣地亚哥,https://openreview.net/pdf?id=ByME42AqK7, 2019. ·Zbl 1485.68229号
[21] Elsken,T.、Metzen,J.H.和Hutter,F.,《神经架构搜索:调查》,J.Mach。学习。决议,20(2019),第1-21页·Zbl 1485.68229号
[22] Fawzi,A.、Balog,M.、Huang,A.,Hubert,T.、Romera--Paredes,B.、Barekatain,M.,Novikov,A.、Ruiz,F.J.R.、Schrittwieser,J.、Swirszcz,G.、Silver,D.、Hassabis,D.和Kohli,P.,《通过强化学习发现更快的矩阵乘法算法》,《自然》,610(2022),第47-53页·Zbl 1496.65060号
[23] Gemp,I.M.、McWilliams,B.、Vernade,C.和Graepel,T.,《特征游戏:PCA作为纳什均衡》,第九届学习表征国际会议,ICLR 2021,虚拟事件,奥地利,OpenReview.net,2021。
[24] González-García,R.、Rico-Martínez,R.和Kevrekidis,I.G.,《分布参数系统的识别:基于神经网络的方法》,计算。化学。《工程》,22(1998),第S965-S968页。
[25] Goyal,P.和Benner,P.,使用Runge-Kutta约束的深度学习从噪声测量中学习动力学,预印本,arXiv:2109.114462021。
[26] Grossmann,I.E.,《非线性混合整数和析取编程技术综述》,Optim。《工程》,第3期(2002年),第227-252页·Zbl 1035.90050
[27] Guo,Y.、Dietrich,F.、Bertalan,T.、Doncevic,D.T.、Dahmen,M.、Kevrekidis,I.G.和Li,Q.,《个性化算法生成:学习ODE积分器的案例研究》,SIAM J.Sci。计算。,44(2022),第A1911-A1933页·Zbl 1492.65204号
[28] Gupta,R.和Roughgarden,T.,数据驱动算法设计,Commun。ACM,63(2020),第87-94页。
[29] Haber,E.和Ruthotto,L.,深度神经网络的稳定架构,逆向问题,34(2017),014004。
[30] He,K.,Zhang,X.,Ren,S.和Sun,J.,图像识别的深度剩余学习,2016年IEEE计算机视觉和模式识别会议,CVPR 2016,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2016,第770-778页。
[31] Hoos,H.H.,《自动算法配置和参数调整》,《自动搜索》,德国海德堡施普林格出版社,2011年,第37-71页。
[32] Hospedales,T.、Antoniou,A.、Micaelli,P.和Storkey,A.,《神经网络中的元学习:一项调查》,IEEE Trans。模式分析。,44(2021年),第5149-5169页。
[33] Hutter,F.、Hoos,H.H.和Leyton-Brown,K.,混合整数规划求解器的自动配置,《约束编程中人工智能(AI)与运筹学(OR)技术集成国际会议》,柏林斯普林格,2010年,第186-202页。
[34] Jin,P.、Zhang,Z.、Zhu,A.、Tang,Y.和Karniadakis,G.E.,《辛网:识别哈密顿系统的内在结构-保辛网络》,神经网络。,132(2020年),第166-179页·Zbl 1475.68316号
[35] Kelley,C.T.,《线性和非线性方程的迭代方法》,SIAM,费城,1995年·Zbl 0832.65046号
[36] Kelley,C.T.,《用牛顿法求解非线性方程》,SIAM,费城,2003年·Zbl 1031.65069号
[37] Khalil,E.B.、Bodic,P.L.、Song,L.、Nemhauser,G.L.和Dilkina,B.,《混合整数规划中的分支学习》,载于《第三十届AAAI人工智能会议论文集》,2016年,Schuurmans,D.和Wellman,M.P.编辑,AAAI出版社,亚利桑那州凤凰城,2016,第724-731页。
[38] KhudaBukhsh,A.R.,Xu,L.,Hoos,H.H.和Leyton-Brown,K.,SATenstein:从组件自动构建本地搜索SAT解算器,Artif。智力。,232(2016),第20-42页·Zbl 1351.68255号
[39] Kingma,D.P.和Ba,J.,Adam:随机优化方法,预印本,arXiv:1412.69802014年。
[40] Knoll,D.A.和Keyes,D.E.,《无雅可比牛顿-克利洛夫方法:方法和应用调查》,J.Compute。物理。,193(2004),第357-397页·Zbl 1036.65045号
[41] Krichene,W.、Bayen,A.M.和Bartlett,P.L.,《连续和离散时间内的加速镜像下降》,摘自《神经信息处理系统进展》,2015年第28期,Cortes,C.、Lawrence,N.D.、Lee,D.、Sugiyama,M.和Garnett,R.编辑,加拿大蒙特利尔,Curran Associates,Red Hook,NY,2015年,第2845-2853页。
[42] Larsson,G.、Maire,M.和Shakhnarovich,G.,《分形网:无残差的超深神经网络》,第五届国际学习表征会议,2017年,法国土伦,https://openreview.net/forum?id=S1VaB4cex, 2017.
[43] Li,L.,Khodak,M.,Balcan,N.和Talwalkar,A.,用于神经架构搜索的Geometry-aware梯度算法,第九届国际学习表征会议,ICLR 2021,https://openreview.net/forum?id=dsohif812Zz, 2021.
[44] Li,Z.、Kovachki,N.B.、Azizzadenesheli,K.、Liu,B.、Bhattacharya,K.,Stuart,A.M.和Anandkumar,A.,参数偏微分方程的傅里叶神经算子,第九届国际学习表征会议,ICLR 2021,https://openreview.net/pdf?id=u_1AP-9NAKK,2021年。
[45] Lia,R.,Xiong,Y.,Fetaya,E.,Zhang,L.,Yoon,K.,Pitkow,X.,Urtasun,R.和Zemel,R.S.,《恢复和改善复发性反向传播》,Proc。机器。学习。Res.(PMLR),80(2018),第3088-3097页。
[46] Liu,D.C.和Nocedal,J.,关于大规模优化的有限内存BFGS方法,数学。程序。,45(1989),第503-528页·兹伯利0696.90048
[47] Liu,H.、Simonyan,K.、Vinyals,O.、Fernando,C.和Kavukcuoglu,K..,《高效建筑搜索的层次表示》,预印本,arXiv:1711.004362017年。
[48] Liu,H.,Simonyan,K.,and Yang,Y.,DARTS:Differentiable architecture search,第七届国际学习代表大会,2019年ICLR,路易斯安那州新奥尔良,国际机器学习会议,加利福尼亚州圣地亚哥,https://openreview.net/forum?id=KlJW8-2019年9月2日。
[49] Lorraine,J.、Vicol,P.和Duvenaud,D.,通过隐式微分优化数百万超参数,108(2020),第1540-1552页。
[50] Lovelett,R.J.、Avalos,J.L.和Kevrekidis,I.G.,部分观测和守恒定律:生物技术和光遗传学中的灰盒建模,印第安纳州工程化学。Res.,59(2020),第2611-2620页。
[51] Lu,L.,Jin,P.和Karniadakis,G.E.,DeepONet:基于算子的通用逼近定理学习非线性算子以识别微分方程,预印本,arXiv:1910.031932019。
[52] Lu,Y.,Zhong,A.,Li,Q.和Dong,B.,超越有限层神经网络:桥接深层结构和数值微分方程,Proc。机器。学习。研究(PMLR),80(2018),第3282-3291页。
[53] Mankowitz,D.J.等人,《使用深度强化学习发现的更快排序算法》,《自然》,618(2023),第257-263页。
[54] Mencarelli,L.、Chen,Q.、Pagot,A.和Grossmann,I.E.,《过程系统工程中的上层建筑优化方法综述》,计算。化学。工程,136(2020),106808。
[55] Metz,L.、Maheswaranathan,N.、Freeman,C.D.、Poole,B.和Sohl-Dickstein,J.,《任务、稳定性、架构和计算:训练更有效的学习型优化器,并使用它们训练自己》,预印本,arXiv:2009.112432020。
[56] Mezzadri,F.,如何从经典紧群生成随机矩阵,Notices Amer。数学。《社会学杂志》,54(2007),第592-604页·Zbl 1156.22004年
[57] Mishra,S.,《数据驱动的微分方程计算加速的机器学习框架》,数学。《工程》,第1期(2019年),第118-146页·Zbl 1435.68279号
[58] Mitsos,A.、Najman,J.和Kevrekidis,I.G.,《最优确定性算法生成》,J.Global Optim。,71(2018),第891-913页·Zbl 1405.90086号
[59] Nascimento,R.G.、Fricke,K.和Viana,F.A.,《使用Python和混合物理信息神经网络求解常微分方程的教程》,《工程应用》。Artif公司。智力。,96 (2020), 103996.
[60] Negrinho,R.、Gormley,M.R.、戈登,G.J.、帕蒂尔,D.、勒,N.和费雷拉,D.,《迈向模块化和可编程架构搜索》,《神经信息处理系统进展》,第32期,2019年,瓦拉赫,H.M.、拉罗谢尔,H.、贝格尔齐默,A.、德阿尔切布克,F.、福克斯,E.B.和加内特,R.编辑,加拿大温哥华,柯兰协会,红钩,纽约,2019年,第13715-13725页。
[61] Paszke,A.、Gross,S.、Massa,F.、Lerer,A.、Bradbury,J.、Chanan,G.、Killeen,T.、Lin,Z.、Gimelshein,N.、Antiga,L.、Desmaison,A.、Köpf,A.,Yang,E.Z.、DeVito,Z.,Raison,M.、Tejani,A.、Chilamkurthy,S.,Steiner,B.、Fang,L.,Bai,J.和Chintala,S.。PyTorch:命令式,高性能深度学习库,《神经信息处理系统进展》第32期,2019年,Wallach,H.M.、Larochelle,H.、Beygelzimer,A.、d'Alché-Buc,F.、Fox,E.B.和Garnett,R.编辑,加拿大温哥华,Curran Associates,纽约州Red Hook,2019,第8024-8035页。
[62] 乔,L.,埃尔班,R.,凯利,C.T.和凯夫雷基迪斯,I.G.,《空间分布随机系统:无方程和方程辅助的预条件计算》,J.Chem。物理。,125 (2006), 204108.
[63] Rajeswaran,A.、Finn,C.、Kakade,S.M.和Levine,S.,《隐性梯度的元学习》,摘自《神经信息处理系统的进展》32,2019年,Wallach,H.M.、Larochelle,H.、Beygelzimer,A.、d'Alché-Buc,F.、Fox,E.B.和Garnett,R.编,加拿大温哥华,Curran Associates,纽约州Red Hook,2019,第113-124页。
[64] Redman,W.T.、Fonoberova,M.、Mohr,R.、Kevrekidis,I.G.和Mezić,I.,《通过Koopman算子理论的算法(半)共轭性》,2022年IEEE第61届决策与控制会议,IEEE,新泽西州皮斯卡塔韦,2022,第6006-6011页。
[65] Rice,J.R.,《算法选择问题》,载于《计算机进展》,第15卷,爱思唯尔,马萨诸塞州伯灵顿,1976年,第65-118页。
[66] Rico Martinez,R.、Anderson,J.S.和Kevrekidis,I.G.,《连续时间非线性信号处理:基于神经网络的灰盒识别方法》,载于《IEEE信号处理神经网络研讨会论文集》,IEEE,Piscataway,NJ,1994,第596-605页。
[67] Rico-Martinez,R.、Kevrekidis,I.G.和Krischer,K.,《使用神经网络进行非线性系统识别:动力学和不稳定性》,摘自《化学工程师神经网络》,爱思唯尔,阿姆斯特丹,1995年,第409-442页。
[68] Rico-Martinez,R.、Krischer,K.、Kevrekidis,I.G.、Kube,M.和Hudson,J.,《铜电解溶解数据的离散与连续非线性信号处理》,化学。工程通信。,118(1992),第25-48页。
[69] Saad,Y.,《稀疏线性系统的迭代方法》,第2版,SIAM,费城,2003年·Zbl 1031.65046号
[70] Saad,Y.和Schultz,M.H.,GMRES:求解非对称线性系统的广义最小残差算法,SIAM J.Sci。统计计算。,7(1986年),第856-869页·Zbl 0599.65018号
[71] Saad,Y.和Van Der Vorst,H.A.,《20世纪线性系统的迭代解》,J.Compute。申请。数学。,123(2000),第1-33页·Zbl 0965.65051号
[72] Schiessler,E.J.、Aydin,R.C.、Linka,K.和Cyron,C.J.,《神经网络手术:训练与拓扑优化相结合》,神经网络。,144(2021),第384-393页。
[73] Schrodi,S.、Stoll,D.、Ru,B.、Sukthanker,R.、Brox,T.和Hutter,F.,《从草稿中发现神经结构》,预印本,arXiv:2211.018422022。
[74] Schwarzschild,A.,Borgnia,E.,Gupta,A.,Huang,F.,Vishkin,U.,Goldblum,M.,and Goldstein,T.,你能学会算法吗?《神经信息处理系统进展》34,2021,Ranzato,M.,Beygelzimer,A.,Dauphin,Y.N.,Liang,P.,and Vaughan,J.W.,eds.,Curran Associates,Red Hook,NY,2021年,第6695-6706页。
[75] Scieur,D.、Roulet,V.、Bach,F.R.和D'Aspremont,A.,《神经信息处理系统进展》,集成方法和优化算法,2017年,加利福尼亚州长滩,Guyon,I.、von Luxburg,U.、Bengio,S.、Wallach,H.M.、Fergus,R.、Vishwanathan,S.V.N.和Garnett,R.编辑,Curran Associates,纽约州Red Hook,2017年,第1109-1118页。
[76] Silver,D.、Hubert,T.、Schrittwieser,J.、Antonoglou,I.、Lai,M.、Guez,A.、Lanctot,M.,Sifre,L.、Kumaran,D.、Graepel,T.,Lillicrap,T.和Simonyan,K.以及Hassabis,D.,《掌握国际象棋、shogi和自演的通用强化学习算法》,《科学》,362(2018),第1140-1144页·Zbl 1433.68320号
[77] Stuart,A.和Humphries,A.R.,《动力系统和数值分析》,第2卷,剑桥大学出版社,剑桥,1998年·Zbl 0913.65068号
[78] Su,W.,Boyd,S.P.,and CandèS,E.J.,《建模Nesterov加速梯度法的微分方程:理论和见解》,摘自《神经信息处理系统进展》,2014年第27期,加拿大蒙特利尔,加拉马尼,Z.,Welling,M.,Cortes,C.,Lawrence,N.D.,and Weinberger,K.Q.,eds.,Curran Associates,Red Hook,NY,2014年,第2510-2518页。
[79] Tang,H.、Huang,Z.、Gu,J.、Lu,B.和Su,H.,《利用迭代齐次GNN解决与尺度无关的图形相关问题》,收录于《神经信息处理系统进展》第33期,2020年,Larochelle,H。、Ranzato,M.、Hadsell,R.、Balcan,M.和Lin,H,eds.,Curran Associates,Red Hook,NY,2020,第15811-15822页。
[80] Tawarmalani,M.和Sahinidis,N.V.,《全局优化的多面体分枝切割方法》,数学。程序。,103(2005),第225-249页·Zbl 1099.90047号
[81] Tsitouras,C.,具有多维传递函数的神经网络,IEEE Trans。神经网络。,13(2002年),第222-228页。
[82] Venkataraman,S.和Amos,B.,凸优化的神经定点加速,预印本,arXiv:2107.102542021。
[83] Virtanen,P.等人,《SciPy 1.0:Python科学计算的基本算法》,《自然方法》,17(2020),第261-272页。
[84] Wibisono,A.、Wilson,A.C.和Jordan,M.I.,《优化中加速方法的变分观点》,Proc。国家。阿卡德。科学。美国,113(2016),第E7351-E7358页·Zbl 1404.90098号
[85] Wolpert,D.H.和Macready,W.G.,优化无免费午餐定理,IEEE Trans。进化。计算。,1(1997年),第67-82页。
[86] Yeomans,H.和Grossmann,I.E.,过程综合中上层建筑优化的系统建模框架,计算。化学。《工程》,23(1999),第709-731页。
[87] Ying,Z.、You,J.、Morris,C.、Ren,X.、Hamilton,W.L.和Leskovec,J.,《可微池的层次图表示学习》,载于《神经信息处理系统进展》2018年第31期,加拿大蒙特利尔,Bengio,S.,Wallach,H.M.,Larochelle,H.,Grauman,K.,Cesa-Bianchi,N.和Garnett,R.,eds.,Curran Associates,Red Hook,纽约州,2018年,第4805-4815页。
[88] Zhang,J.、Mokhtari,A.、Sra,S.和Jadbabaie,A.,《直接龙格-库塔离散化实现加速》,《神经信息处理系统进展》,2018年,加拿大蒙特利尔,Bengio,S.、Wallach,H.M.、Larochelle,H.、Grauman,K.、Cesa Bianchi,N.和Garnett,R.编辑,Curran Associates,纽约红钩,2018,第3904-3913页。
[89] Zhao,J.和Mau,J.,用递归深度神经网络发现控制方程,预印本,arXiv:2009.115002020。
[90] 朱,A.,贝塔兰,T.,朱,B.,唐,Y.,和凯夫雷基迪斯,I.G.,隐式模板ODE-Nets的实现和(反向修改)错误分析,预印本,arXiv:2303.178242023。
[91] 朱,A.,金,P.,朱,B.,唐,Y.,动力学发现的逆修正微分方程,预印本,arXiv:2009.010582020。
[92] Zoph,B.、Vasudevan,V.、Shlens,J.和Le,Q.V.,《学习可扩展图像识别的可转换架构》,2018年IEEE计算机视觉和模式识别会议,CVPR 2018,犹他州盐湖城,IEEE计算机学会,加利福尼亚州洛斯阿拉米托斯,2018年,第8697-8710页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。