×

保持结构的深度学习。 (英语) Zbl 07440570号

摘要:在过去几年中,深度学习作为一个备受关注的话题已经成为一个热门话题,这主要是因为在解决大规模图像处理任务方面取得了成功。应用深度学习涉及多个具有挑战性的数学问题:大多数深度学习方法都需要解决难以优化的问题,并且需要很好地理解计算工作量之间的权衡,为了成功地为给定的问题设计深度学习方法,需要大量的数据和模型复杂性。在深度学习方面取得的大量进展都是基于启发式探索,但在数学上理解现有深度学习方法的结构以及系统地设计新的深度学习方法以在深度学习中保留某些类型的结构方面,人们正在做出越来越多的努力。在本文中,我们回顾了这些方向:一些深层神经网络可以理解为动力系统的离散化,神经网络可以被设计为具有期望的性质,如可逆性或群等变性,并且已经提出了基于共形哈密顿系统和黎曼流形的新算法框架来解决优化问题。我们通过讨论一些我们认为是未来研究的有趣方向的悬而未决的问题来结束对这些主题的回顾。

MSC公司:

68T07型 人工神经网络与深度学习
65升05 常微分方程初值问题的数值方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Absil,P.-A,Mahony,R.&Sepulchre,R.(2008)《矩阵流形上的优化算法》,普林斯顿大学出版社,新泽西州普林斯顿。保罗·范·杜伦(Paul Van Dooren)作了前言·Zbl 1147.65043号
[2] Amari,S.-I.(1998)自然梯度在学习中有效。神经计算。10(2),251-276。
[3] Amari,S.-I.,Cichocki,A.和Yang,H.H.(1996)盲信号分离的新学习算法。《神经信息处理系统进展》,第757-763页。
[4] Amari,S.-I.&Douglas,S.C.(1998)为什么是自然梯度?1998年IEEE声学、语音和信号处理国际会议论文集,ICASSP’98(分类号98CH36181),第2卷,IEEE,第1213-1216页。
[5] Ambrosio,L.、Gigli,N.和Savaré,G.(2008)《梯度流:度量空间和概率测度空间》,Springer科学与商业媒体,柏林·Zbl 1145.35001号
[6] Arridge,S.、Maass,P.、Øktem,O.&Schönlieb,C.-B.(2019)使用数据驱动模型解决反问题。《数值学报》28,1-174·兹比尔1429.65116
[7] Asorey,M.,Cariñena,J.F.&Ibort,L.A.(1983)含时系统的广义正则变换。数学杂志。《物理学》24(12),2745-2750·Zbl 0548.70010号
[8] Bécigneul,G.&Ganea,O.-E.(2019)黎曼自适应优化方法。参加:学习代表国际会议。
[9] Behrmann,J.、Grathwohl,W.、Chen,R.T.Q.、Duvenaud,D.和Jacobsen,J.-H.(2019)可逆剩余网络。收录人:Chaudhuri,K.和Salakhutdinov,R.(编辑),《第36届机器学习国际会议论文集》,《机器学习研究论文集》第97卷,美国加利福尼亚州长滩,2019年6月9日至15日,PMLR,第573-582页。
[10] Behrmann,J.、Vicol,P.、Wang,K.C.、Grosse,R.和Jacobsen,J.H.(2021)《理解和缓解可逆神经网络中的爆炸性反转》。摘自:国际人工智能和统计会议,PMLR,第1792-1800页。
[11] Bekkers,E.J.、Lafarge,M.W.、Veta,M.、Eppenhof,K.A.J.、Pluim,J.P.W.和Duits,R.(2018)医学图像分析的旋转平移协变卷积网络。摘自:《医学图像计算和计算机辅助干预国际会议》,查姆施普林格,第440-448页。
[12] Benning,M.,Celledoni,E.,Ehrhardt,M.J.,Owren,B.&Schönlieb,C.-B.(2019)作为最优控制问题的深度学习:模型和数值方法。J.计算。第6(2)王朝,171-198年·Zbl 1429.68249号
[13] Bhatt,A.,Floyd,D.&Moore,B.E.(2016)阻尼哈密顿系统的二阶共形辛格式。科学杂志。计算66(3),1234-1259·兹比尔1377.65165
[14] Bogachev,V.I.(2007)《测度理论》,第1卷,施普林格科学与商业媒体,柏林·邮编1120.28001
[15] Bölcskei,H.,Grohs,P.,Kutyniok,G.&Petersen,P.(2019)稀疏连接深度神经网络的最佳逼近。SIAM J.数学。数据科学1(1),8-45·Zbl 1499.41029号
[16] Bonnans,J.F.(2019)最优控制课程。http://www.cmap.polytechnique.fr/bonnans/notes/oc/ocbook.pdf。
[17] Cardoso,J.-F.和Laheld,B.H.(1992)等变自适应源分离。IEEE传输。信号处理.443017-3030。
[18] (2003)运动捕捉数据库。http://mocap.cs.cmu.edu/。
[19] Celledoni,E.、Eslitzbichler,M.和Schmeding,A.(2016)李群的形状分析及其在计算机动画中的应用。《几何杂志》。机械8(3),273-304·Zbl 1366.65018号
[20] Celledoni,E.和Fiori,S.(2004)通过简化“刚体”方程的几何积分进行神经学习。J.计算。申请。数学172(2),247-269·Zbl 1082.68095号
[21] Celledoni,E.&Höiseth,E.H.(2017)Port-Hamilton系统的能量保持和被动一致的数值离散化。arXiv预打印arXiv:1706.08621。
[22] Celledoni,E.、Marthinsen,H.和Owren,B.(2014)李群积分器基础、新发展和应用简介。J.计算。物理257(B部分),1040-1061·Zbl 1351.37266号
[23] Chang,B.、Meng,L.、Haber,E.、Ruthotto,L.,Begert,D.&Holtham,E.(2018)任意深度剩余神经网络的可逆结构。摘自:《第三十二届AAAI人工智能会议》,第32卷,AAAI出版社,帕洛阿尔托,第2811-2818页。
[24] Chen,T.Q.,Behrmann,J.,Duvenaud,D.&Jacobsen,J.-H.(2019)可逆生成建模的剩余流量。摘自:《神经信息处理系统进展》,第9913-9923页。
[25] Chen,T.Q.,Rubanova,Y.,Bettencourt,J.&Duvenaud,D.(2018)神经常微分方程。摘自:《神经信息处理系统进展》,第6572-6583页。
[26] Chizat,L.&Bach,F.(2018)关于使用最优传输的超参数模型梯度下降的全局收敛性。摘自:《神经信息处理系统进展》,第3036-3046页。
[27] Chizat,L.和Bach,F.(2020)用逻辑损失训练的宽双层神经网络梯度下降的隐式偏差。arXiv预打印arXiv:2002.04486。
[28] Cho,M.&Lee,J.(2017)批次归一化的黎曼方法。摘自:《神经信息处理系统进展》,第5225-5235页。
[29] Ciccone,M.、Galleri,M.,Masci,J.、Osendorfer,C.和Gomez,F.(2018)NAIS-Net:非自治微分方程的稳定深网络。摘自:《神经信息处理系统进展》,第3025-3035页。
[30] Clason,C.(2020)反问题的正则化。arXiv:2001.00617。
[31] Cohen,T.,Geiger,M.和Weiler,M.(2019)齐次空间上等变细胞神经网络的一般理论。摘自:神经信息处理系统进展32,第9145-9156页。
[32] Cohen,T.S.、Geiger,M.、Koehler,J.和Welling,M.(2018)《球形CNN》。arXiv:1801.10130。
[33] Cohen,T.S.&Welling,M.(2016)组等变卷积网络。摘自:机器学习国际会议,第2990-2999页。
[34] Cohen,T.S.&Welling,M.(2017)《Steerable CNN》,第五届国际学习代表大会,2017年ICLR,法国土伦,2017年4月24日至26日,会议记录。
[35] Conn,A.R.、Gould,N.I.M.和Toint,P.L.(2000)《信任区域方法》,MPS-SIAM优化系列,第1卷。MPS/SIAM,费城·Zbl 0958.65071号
[36] Cook,P.,Bai,Y.,Nedjati-Gilani,S.,Seunarine,K.,Hall,M.,Parker,G.&Alexander,D.(2006)Camino:开源扩散MRI重建和处理。收录于:美国西雅图西雅图第十四届国际科学与材料学会科学会议记录,第2759卷。
[37] Cybenko,G.(1989)通过S形函数的叠加进行近似。数学。控制信号系统2(4),303-314·Zbl 0679.94019号
[38] Dahlquist,G.(1979)显式和隐式Runge-Kutta方法的广义压缩圆盘。技术报告,CM-P00069451。
[39] Deng,J.,Dong,W.,Socher,R.,Li,L.-J.,Li.,K.&Fei-Fei,L.(2009)Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,IEEE,第248-255页。
[40] Dinh,L.、Krueger,D.和Bengio,Y.(2014)NICE:非线性独立成分估计。arXiv预打印arXiv:1410.8516。
[41] Dinh,L.、Sohl-Dickstein,J.和Bengio,S.(2016)《使用实际NVP进行密度估算》。arXiv预打印arXiv:1605.08803。
[42] Du,S.S.,Wang,Y.,Zhai,X.,Balakrishnan,S.,Salakhutdinov,R.&Singh,A.(2018)估计卷积或递归神经网络需要多少样本?arXiv:1805.07883。
[43] Duchi,J.、Shalev-Shwartz,S.、Singer,Y.和Chandra,T.(2008)高维学习中l1球的有效投影。摘自:《第25届机器学习国际会议论文集》,第272-279页。
[44] Dupont,E.、Doucet,A.和Teh,Y.W.(2019)增强的神经ODE。主题:神经信息处理系统进展。
[45] Durkan,C.、Bekasov,A.、Murray,I.和Papamakaris,G.(2019)神经样条流。摘自:《神经信息处理系统进展》,第7509-7520页。
[46] E、 W.(2017)关于通过动态系统进行机器学习的提案。Commun公司。数学。统计5(1),1-11·Zbl 1380.37154号
[47] E、 W.,Han,J.&Li,Q.(2018)深度学习的平均场最优控制公式。arXiv:1807.01083v1。
[48] E、 W.,Han,J.&Li,Q.(2019)深度学习的平均场最优控制公式。Res.数学。科学6(1),1-41·Zbl 1421.49021号
[49] E、 W.,Ma,C.&Wang,Q.(2019)剩余网络人口风险的先验估计。arXiv,第1-19页。
[50] Engl,H.W.,Hanke,M.和Neubauer,A.(1996)《反问题的正则化,数学及其应用》,施普林格,柏林·Zbl 0859.65054号
[51] Esteves,C.、Allen-Blanchette,C.,Makadia,A.和Danilidis,K.(2018)学习球面CNN的SO(3)等变表示。摘自:《欧洲计算机视觉会议记录》,第52-68页。
[52] Etmann,C.,Ke,R.&Schönlieb,C.-B.(2020)《网络:具有可学习上采样和下采样的完全可逆U网络》。arXiv预打印arXiv:2005.05220。
[53] França,G.、Sulam,J.、Robinson,D.P.和Vidal,R.(2019)《共形辛和相对论优化》。arXiv预打印arXiv:1903.04100·Zbl 07330529号
[54] Gallot,S.、Hulin,D.和Lafontaine,J.(2004)《黎曼几何》,第三版,柏林斯普林格弗拉格大学·Zbl 1068.53001号
[55] García Trillos,N.&Slepčev,D.(2016)点云总变化的连续极限。架构(architecture)。定额。机械。分析220(1),193-241·Zbl 1336.68215号
[56] Gholami,A.,Keutzer,K.和Biros,G.(2019)ANODE:神经ODE的无条件精确记忆有效梯度。参见:IJCAI国际人工智能联合会议,第2019卷,第730-736页。
[57] Gomez,A.N.,Ren,M.,Urtasun,R.&Grosse,R.B.(2017)可逆剩余网络:无需存储激活的反向传播。收录人:Guyon,I.、Luxburg,U.V.、Bengio,S.、Wallach,H.、Fergus,R.、Vishwanathan,S.和Garnett,R.(编辑),《神经信息处理系统进展》30,Curran Associates,Inc.,第2214-2224页。
[58] Grönwall,T.H.(1919)关于微分方程组解的参数导数的注释。《数学年鉴》20(4),292-296。
[59] Günther,S.、Ruthotto,L.、Schroder,J.B.、Cyr,E.C.和Gauger,N.R.(2020)深度剩余神经网络的分层并行训练。SIAM J.数学。数据科学2(1),1-23·Zbl 1508.68306号
[60] Haber,E.&Ruthotto,L.(2017)深层神经网络的稳定架构。逆问题34(1),014004·Zbl 1426.68236号
[61] Hager,W.W.(2000)最优控制中的Runge-Kutta方法和变换的伴随系统。数字数学87(2),247-282·Zbl 0991.49020号
[62] Hairer,E.、Lubich,C.和Wanner,G.(2006)《几何-数值积分:常微分方程的结构保持算法》,第31卷,Springer科学与商业媒体,柏林·Zbl 1094.65125号
[63] Hairer,E.,Nörsett,S.P.&Wanner,G.(1993)《求解常微分方程I》,第二版,计算数学中的Springer级数,Springer-Verlag,柏林,海德堡·Zbl 0789.65048号
[64] Hairer,E.&Wanner,G.(2010)《求解常微分方程》。二、 Springer计算数学系列,第14卷,Springer-Verlag,柏林。刚性和微分代数问题,第二修订版,平装本·Zbl 1192.65097号
[65] He,K.,Zhang,X.,Ren,S.&Sun,J.(2016)图像识别的深度剩余学习。摘自:IEEE计算机视觉和模式识别会议,第770-778页。
[66] Hochreiter,S.&Schmidhuber,J.(1997)平面极小值。神经计算9(1),1-42·兹比尔0872.68150
[67] Hoogeboom,E.、Van Den Berg,R.和Welling,M.生成归一化流的新兴卷积。收录人:Chaudhuri,K.和Salakhutdinov,R.(编辑),《第36届机器学习国际会议论文集》,《机器学习研究论文集》第97卷,美国加利福尼亚州长滩,2019年6月9日至15日,PMLR,第2771-2780页。
[68] Hopfield,J.J.(1982)具有涌现集体计算能力的神经网络和物理系统。程序。美国国家科学院。科学79(8),2554-2558·Zbl 1369.92007号
[69] Hornik,K.(1991)多层前馈网络的近似能力。神经网络4(2),251-257。
[70] Hutchinson,M.F.(1990)拉普拉斯平滑样条影响矩阵迹的随机估计。Commun公司。统计模拟。计算19(2),433-450·Zbl 0718.62058号
[71] Hyvärinen,A.&Oja,E.(2000)《独立成分分析:算法和应用》。神经网络13,411-430。
[72] Iserles,A.、Munthe-Kaas,H.Z.、Nörsett,S.P.和Zanna,A.(2000)Lie-group方法。摘自:《数字学报》,2000年,《数字学报”,第9卷,剑桥大学出版社,剑桥,第215-365页·Zbl 1064.65147号
[73] Ito,K.&Jin,B.(2014)《反问题——蒂霍诺夫理论与算法》,世界科学出版社,新加坡·Zbl 1306.65210号
[74] Jacobsen,J.-H.,Smeulders,A.W.M.&Oyallon,E.(2018)i-RevNet:深度可逆网络。参加:学习代表国际会议。
[75] Karras,T.、Laine,S.&Aila,T.(2019)生成性对抗网络的基于样式的生成器架构。摘自:IEEE计算机视觉和模式识别会议记录,第4401-4410页。
[76] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.和Tang,P.T.P.(2017)关于深度学习的大背训练:泛化差距和显著极小值。In:ICLR。
[77] Kingma,D.P.&Ba,J.(2015)《亚当:随机优化方法》。In:ICLR。
[78] Kingma,D.P.和Dhariwal,P.(2018)Glow:具有可逆1x1卷积的生成流。摘自:《神经信息处理系统进展》,第10215-10224页。
[79] Kobayashi,S.&Nomizu,K.(1996)《微分几何基础》,第一卷,威利经典图书馆,John Wiley&Sons,Inc.,纽约。1963年原版再版,威利跨科学出版物·Zbl 0119.37502号
[80] Kondor,R.,Lin,Z.和Trivedi,S.(2018)Clebsch-Gordan网:一种全傅里叶空间球面卷积神经网络。神经信息处理系统进展,31,10117-10126。
[81] Kondor,R.&Trivedi,S.(2018)《神经网络中的等方差和卷积对紧群作用的推广》。arXiv:1802.03690。
[82] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)《深度卷积神经网络的Imagenet分类》。神经信息处理系统进展,251097-1105。
[83] Lecun,Y.(1988)反向传播的理论框架。摘自:《1988年康涅狄格州模特暑期学校学报》,第1卷,CMU,Morgan Kaufmann,宾夕法尼亚州匹兹堡,第21-28页。
[84] Lecun,Y.和Bengio,Y.(1995)图像、语音和时间序列的卷积网络。《大脑理论和神经网络手册》,3361(10),1995年。
[85] Lecun,Y.、Bengio,Y.和Hinton,G.(2015)深度学习。《自然》521(7553),436-444。
[86] Lecun,Y.、Boser,B.、Denker,J.S.、Henderson,D.、Howard,R.E.、Hubbard,W.和Jackel,L.D.(1989)反向传播应用于手写邮政编码识别。神经计算机1(4),541-551。
[87] Li,J.,Li,F.&Todorovic,S.(2019)通过Cayley变换对Stiefel流形进行有效的黎曼优化。参加:学习代表国际会议。
[88] Li,Q.,Chen,L.,Tai,C.&E,W.(2018)基于最大原则的深度学习算法。J.马赫。学习。第18号决议,1-29·Zbl 1467.68156号
[89] Li,Q.&Hao,S.(2018)深度学习的最优控制方法及其在离散weight神经网络中的应用。摘自:第35届机器学习国际会议论文集。
[90] Li,Q.,Tai,C.&E,W.(2019)随机修正方程和随机梯度算法动力学I:数学基础。J.马赫。学习。第20号决议,1-47·Zbl 1484.62106号
[91] Li,S.T.J.&Fuxin,L.(2020)通过Cayley变换对Stiefel流形进行高效黎曼优化。In:ICLR 2020。
[92] Linnainmaa,S.(1970)算法的累积舍入误差表示为局部舍入误差的泰勒展开。赫尔辛基大学硕士论文(芬兰语),第6-7页。
[93] Lu,Y.,Zhong,A.,Li,Q.&Dong,B.(2018)超越有限层神经网络:桥接深层架构和数值微分方程。摘自:2018年ICLR第六届学习代表国际会议——研讨会记录。
[94] Lyu,K.和Li,J.(2020)梯度下降最大化了均质神经网络的裕度。参加:学习代表国际会议。
[95] Maddison,C.J.、Paulin,D.、Teh,Y.W.、O'Donoghue,B.和Doucet,A.(2018)哈密顿下降方法。arXiv预印arXiv:1809.05042。
[96] Martens,J.(2014)《自然梯度法的新见解和观点》。arXiv预印arXiv:1412.1193·Zbl 07306852号
[97] Marthinsen,H.&Owren,B.(2016)非自治线性哈密顿问题的几何积分。高级计算。数学42(2),313-332·Zbl 1338.65272号
[98] Massaroli,S.、Poli,M.、Califano,F.、Faragasso,A.、Park,J.、Yamashita,A.和Asama,H.(2019)《神经网络训练的Port-Hamiltonian方法》。arXiv预印arXiv:1909.02702。
[99] Mclachlan,R.和Perlmutter,M.(2001)共形哈密顿系统。《几何杂志》。《物理学》39(4),276-300·Zbl 1005.53058号
[100] Mclachlan,R.I.&Quispel,G.R.W.(2002)分裂方法。《数字学报》第11期,第341-434页·Zbl 1105.65341号
[101] Mclachlan,R.I.,Quispel,G.R.W.和Robidoux,N.(1999)《使用离散梯度的几何积分》。R.Soc.伦敦。菲洛斯。变速器。序列号。数学。物理学。《工程科学》357(1754),1021-1045·Zbl 0933.65143号
[102] Modin,K.(2016)《从最优传输和信息几何看矩阵分解的几何》。arXiv预印本arXiv:1601.01875·Zbl 1368.15010号
[103] Ng,A.Y.(2004)特征选择,L1与L2正则化,以及旋转不变性。摘自:第21届机器学习国际会议论文集。
[104] Nocedal,J.&Wright,S.(2006)《数值优化》,Springer科学与商业媒体,柏林·兹比尔1104.65059
[105] O'Donoghue,B.和Maddison,C.J.(2019)复合目标的哈密顿下降。摘自:《神经信息处理系统进展》,第14443-14453页。
[106] Parpas,P.&Muir,C.(2019)《全球预测,局部校正:神经网络的实时并行最优控制》。arXiv,1974年。
[107] Pascanu,R.和Bengio,Y.(2013)《重新审视深层网络的自然梯度》。arXiv预打印arXiv:1301.3584。
[108] Petersen,P.和Voigtlaender,F.(2019)卷积神经网络和全连通网络近似的等效性。程序。美国数学。《社会学杂志》148(4),1567-1581·Zbl 07176144号
[109] Pontryagin,L.S.(1987)《最优过程的数学理论》,《苏联数学经典》,Taylor&Francis,蒙特勒。
[110] Putzky,P.&Welling,M.(2019)《反转学习反转》。摘自:神经信息处理系统进展32,Curran Associates,Inc.,第446-456页。
[111] Ranzato,M.A.、Boureau,Y.-L.和Le Cun,Y.(2009)深度信念网络的稀疏特征学习。收录:神经信息处理系统进展20——2007年会议论文集。
[112] Reddi,S.J.,Kale,S.&Kumar,S.(2018)《亚当与超越的融合》。In:ICLR。
[113] Rezende,D.J.和Mohamed,S.(2015)规范化流的变分推断。摘自:第32届国际机器学习会议论文集——第37卷,ICML’15,JMLR.org,第1530-1538页。
[114] Robbins,H.&Monro,S.(1951)随机近似方法。安。数学。《统计》,22(3),400-407·Zbl 0054.05901号
[115] Rocca,F.、Prato,C.M.和Ferretti,A.(1997)ERS-SAR干涉测量概述。摘自:意大利佛罗伦萨第三届ERS空间服务环境研讨会论文集。
[116] Ruthotto,L.&Haber,E.(2019)偏微分方程驱动的深层神经网络。数学成像与视觉杂志,1-13。柏林施普林格·Zbl 1434.68522号
[117] Shalev-Shwartz,S.和Ben-David,S.(2014)《理解机器学习:从理论到算法》,剑桥大学出版社,剑桥·Zbl 1305.68005号
[118] Su,W.,Boyd,S.P.&Candes,E.J.(2014)nesterov加速梯度法建模的微分方程:理论和见解。收录于:NIPS,第14卷,第2510-2518页。
[119] Taylor,G.、Burmeister,R.、Xu,Z.、Singh,B.、Patel,A.和Goldstein,T.(2016)《无梯度训练神经网络:可扩展的ADMM方法》。输入:ICML。
[120] Teshima,T.、Ishikawa,I.、Tojo,K.、Oono,K.,Ikeda,M.和Sugiyama,M.(2020)基于耦合的可逆神经网络是通用微分近似。arXiv预印本arXiv:2006.11469。
[121] Thomas,N.、Smidt,T.、Kearnes,S.、Yang,L.、Li,L.,Kohlhoff,K.和Riley,P.(2018)《张量场网络:三维点云的旋转和平移等效神经网络》。arXiv:1802.08219。
[122] Thorpe,M.和Van Gennip,Y.(2018)残差神经网络的深度极限。arXiv预印arXiv:1810.11741。
[123] Udrište,C.(1994)《黎曼流形上的凸函数和优化方法,数学及其应用》,第297卷,Kluwer学术出版集团,多德雷赫特·Zbl 0932.53003号
[124] Ulyanov,D.、Vedaldi,A.和Lempitsky,V.(2018)《深度图像优先》。摘自:IEEE计算机视觉和模式识别会议记录,第9446-9454页。
[125] Van Der Schaft,A.和Jeltsema,D.(2014)波特哈密尔顿系统理论:介绍性概述。已找到。趋势系统。控制1(2-3),173-378·Zbl 1496.93055号
[126] Vincent,P.、Larochelle,H.、Lajoie,I.、Bengio,Y.和Manzagol,P.-A(2010)叠加去噪自动编码器:使用局部去噪标准学习深层网络中的有用表示。J.马赫。学习。第11号决议,3371-3408·Zbl 1242.68256号
[127] Wang,X.,Ma,S.,Goldfarb,D.&Lu,W.(2017)非凸随机优化的随机拟Newton方法。SIAM J.Optim.第27(2)期,927-956页·Zbl 1365.90182号
[128] Weiler,M.、Geiger,M.和Welling,M.,Boomsma,W.&Cohen,T.(2018)3D可操纵CNN:学习体积数据中的旋转等变特征。载:《第32届神经信息处理系统国际会议论文集》,第10402-10413页。
[129] Weiler,M.、Hamprecht,F.A.和Storath,M.(2018)学习旋转等变CNN的可操纵滤波器。摘自:IEEE计算机视觉和模式识别会议记录,第849-858页
[130] Weinmann,A.、Demaret,L.和Storath,M.(2014)流形值数据的总变差正则化。SIAM J.成像科学7(4),2226-2257·Zbl 1309.65071号
[131] Withers,C.S.和Nadarajah,S.(2010)log det A=tr log A.Int.J.数学。埃杜。科学。技术41(8),1121-1124·Zbl 1292.97035号
[132] Worrall,D.E.,Garbin,S.J.,Turmukhambetov,D.&Brostow,G.J.(2017)《谐波网络:深度平移和旋转等方差》。摘自:IEEE计算机视觉和模式识别会议记录,第5028-5037页。
[133] Xie,Y.,Byrd,R.H.&Nocedal,J.(2020)BFGS方法的误差分析。SIAM J.Optim.30(1),182-209·Zbl 1435.90149号
[134] Yang,H.H.和Amari,S.-I.(1997)用于训练多层感知器的自然梯度下降。提交给IEEE Trans。神经网络。
[135] Yang,Z.,Liu,Y.,Bao,C.&Shi,Z.(2020)残差网络和非残差网络之间的插值。摘自:机器学习国际会议,PMLR,第10736-10745页。
[136] Yarotsky,D.(2018)神经网络对不变映射的通用逼近。arXiv:1804.10306。
[137] Zaheer,M.、Reddi,S.、Sachan,D.、Kale,S.和Kumar,S.(2018)非凸优化的自适应方法。摘自:《神经信息处理系统进展》,第9793-9803页。
[138] Zhang,G.,Martens,J.&Grosse,R.B.(2019)过参数化神经网络自然梯度下降的快速收敛。《神经信息处理系统进展》,第8080-8091页。
[139] Zhang,L.和Schaeffer,H.(2020)resNet及其变体的前向稳定性。数学杂志。成像视力62(3),328-351·Zbl 1434.68528号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。