文件Zbl 07362267-zbMATH Open

神经ODE作为具有恒定权重的ResNets的深度极限。（英语） Zbl 07362267号

分析。申请。，辛加普。 19，第3期，397-437（2021年）.

摘要：在本文中，我们证明了在深度极限下，ResNet型深度神经网络上的随机梯度下降，其中每个层共享相同的权重矩阵，收敛于神经ODE的随机梯度降落，并且相应的值/损失函数收敛，在随机梯度下降最小化的背景下，将神经ODE视为ResNets的深度极限的理论基础。我们的证明是基于相关的福克-普朗克方程的某些衰变估计。

引用于5文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
65L20英寸	常微分方程数值方法的稳定性和收敛性
34A45型	常微分方程解的理论逼近
84年第35季度	福克-普朗克方程
10层62层	点估计
60 H10型	随机常微分方程（随机分析方面）

关键词：

机器学习；深度神经网络；ResNet公司；神经ODE；常微分方程；随机梯度下降；偏微分方程；福克·普朗克

软件：

阳极；火炬差异；CIFAR公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Bogachev，V.、Röckner，M.和Shaposhnikov，S.，《关于测度的Fokker-Planck-Kolmogorov方程的唯一性问题》，J.Math。《科学》179（1）（2011）7-47·Zbl 1291.35425号
[2]	Brutzkus，A.，Globerson，A.，Malach，E.和Shalev Shwartz，S.，SGD在可证明在线性可分离数据上推广的参数化网络上学习，第六届国际学习表示会议（ICLR，2018），https://arXiv.org/abs/1710.10174。
[3]	Chaudhari，P.、Oberman，A.、Osher，S.、Soatto，S.和Carlier，G.，《深度松弛：优化深度神经网络的偏微分方程》，《数学研究》。科学5（3）（2018）30·Zbl 1427.82032年
[4]	Chaudhari，P.和Soatto，S.，《随机梯度下降法进行变分推理，收敛到深网络的极限环》，2018年信息理论与应用研讨会，ITA 2018（美国圣地亚哥，2018）。
[5]	Chen，T.Q.，Rubanova，Y.，Bettencourt，J.和Duvenaud，D.K.，《神经信息处理系统进展》，第31卷，Bengio，S.，Wallach，H.，Larochelle，H.、Grauman，K.，Cesa-Bianchi，N.和Garnett，R.编辑（Curran Associates，Inc.，2018），第6571-6583页。
[6]	X.Chen，J.D.Lee，X.T.Tong，Y.Zhang，随机梯度下降模型参数的统计推断，《统计年鉴》48（1），251-273·Zbl 1440.62287号
[7]	Dal Maso，G.，《非线性微分方程及其应用中的收敛与进展》（Birkhäuser，1993）·Zbl 0816.49001号
[8]	Du，S.和Lee，J.，《关于二次激活神经网络中过参数化的力量》，载于第35届机器学习国际会议，ICML，第3卷（瑞典斯德哥尔摩，2018年），第2132-2141页。
[9]	Dupont，E.、Doucet，A.和Teh，Y.W.，《增强神经ODE》，《神经信息处理系统进展》，第32卷（NIPS2019），第3140-3150页。
[10]	E、 W.，Han，J.和Li，Q.，《深度学习的平均场最优控制公式》，《数学研究》。科学6（1）（2019），文章编号10·Zbl 1421.49021号
[11]	Evans，L.C.，偏微分方程，第2版。，第19卷（美国数学学会，普罗维登斯，RI，2010）·Zbl 1194.35001号
[12]	Fabes，E.，Fukushima，M.，Gross，L.，Kenig，C.，Röckner，M.和Strock，D.W.，Dirichlet Forms，第1563卷（柏林斯普林格-弗拉格出版社，1993年）。
[13]	Ghadimi，S.和Lan，G.，非凸随机规划的随机一阶和零阶方法，SIAM J.Optim.23（4）（2013）2341-2368·Zbl 1295.90026号
[14]	Ḡhman，U.I.和Skorohod，A.V.，《随机微分方程》（Springer-Verlag，纽约，1972），由Kenneth Wickwire，Ergebnisse der Mathematik und ihrer Grenzgebiete，Band 72从俄语翻译而来·Zbl 0242.60003号
[15]	Glrot，X.和Bengio，Y.，《理解深度前馈神经网络训练的困难》，J.Mach。学习。第9号决议（2010年）249-256。
[16]	B.Graham，《分数最大冲量》，arXiv:1412.6071（2014）。
[17]	Gross，L.，对数Sobolev不等式，Amer。《数学杂志》97（4）（1975）1061-1083·Zbl 0318.46049号
[18]	He，K.，Zhang，X.，Ren，S.和Sun，J.，图像识别的深度剩余学习，2016年IEEE计算机视觉和模式识别（CVPR）会议（美国内华达州拉斯维加斯，2016年）。
[19]	He，K.，Zhang，X.，Ren，S.和Sun，J.，深度剩余网络中的身份映射，《欧洲计算机视觉会议》（Springer，2016），第630-645页。
[20]	C.F.Higham和D.J.Higham.深度学习：应用数学家简介，SIAM Rev.61（4），860-891·Zbl 1440.68214号
[21]	T.Ho-Phuoc，CIFAR10比较深层神经网络和人类的视觉识别性能，https://arXiv.org/abs/1811.07270。
[22]	Ioffe，S.和Szegedy，C.，《批量规范化：通过减少内部协变量转移加快深层网络训练》，载于第32届国际机器学习大会（ICML）（法国里尔，2015年），第448-456页。
[23]	A.Krizhevsky和G.Hinton，从微小图像中学习多层特征。技术代表，技术报告，多伦多大学（2009年）。
[24]	Le Bris，C.和Lions，P.-L.，不规则系数Fokker-Planck型方程解的存在性和唯一性，Comm.偏微分方程33（7-9）（2008）1272-1317·Zbl 1157.35301号
[25]	Lee，C.-Y.，Xie，S.，Gallagher，P.，Zhang，Z.和Tu，Z.，深度监督网，J.Mach。学习。第38号决议（2015）562-570。
[26]	Li，H.，Xu，Z.，Taylor，G.，Studer，C.和Goldstein，T.，《可视化神经网络的损失景观》，高级神经信息。过程。系统31（2018）6389-6399。
[27]	Li，Q.，Chen，L.，Tai，C.和E，W.，深度学习的基于最大原理的算法，J.Mach。学习。第18（2018）1-29号决议·兹比尔1467.68156
[28]	Li，Q.，Tai，C.和E，W.，《随机修正方程和自适应随机梯度算法》。第34届国际机器学习会议，ICML’17，第70卷（澳大利亚悉尼，2017），第2101-2110页。
[29]	Li，Q.，Tai，C.和E，W.，《随机修正方程和随机梯度算法动力学I：数学基础》，J.Mach。学习。决议20（2019）1-47·Zbl 1484.62106号
[30]	Lieberman，G.M.，《二阶抛物微分方程》（世界科学出版公司，新泽西州River Edge，1996年）·Zbl 0884.35001号
[31]	W.Maddox、T.Garipov、P.Izmailov、D.Vetrov和A.G.Wilson，深度学习中贝叶斯不确定性的简单基线，https://arXiv.org/abs/1902.02476。
[32]	Mandt，S.，Hoffman，M.D.和Blei，D.M.，作为近似贝叶斯推理的随机梯度下降，J.Mach。学习。第18（1）号决议（2017）4873-4907·Zbl 1442.62055号
[33]	P.Ramachandran、B.Zoph和Q.V.Le，《寻找激活功能》（2017年）。
[34]	Royer，G.，《对数Sobolev不等式的开端》，第14卷（美国数学学会，普罗维登斯，RI；法国数学协会，巴黎，2007），由唐纳德·巴比特（Donald Babbitt）从1999年的法语原文翻译而来·Zbl 1138.60007号
[35]	Safran，I.和Shamir，O.，《伪局部极小值在双层ReLU神经网络中很常见》，载于第35届机器学习国际会议（ICML 2018）（瑞典斯德哥尔摩，2018），第7031-7052页。
[36]	Shaposhnikov，S.，关于Fokker-Planck-Kolmogorov方程柯西问题概率解的唯一性，理论问题。申请56（1）（2012）96-115·Zbl 1238.35168号
[37]	Soltanolkotabi，M.、Javanmard，A.和Lee，J.，《过参数化浅层神经网络优化前景的理论见解》，IEEE Trans。通知。Theory65（2）（2019）742-769·Zbl 1428.68255号
[38]	Stroock，D.W.，《大偏差理论导论》（Springer Verlag，纽约，1984年）·Zbl 0552.60022号
[39]	M.Thorpe和Y.van Gennip，剩余神经网络的深度极限，https://arXiv.org/abs/1810.11741。
[40]	R.Vidal、J.Bruna、R、Giryes和S.Stefano，《深度学习数学》，https://arXiv.org/abs/1712.04741。
[41]	维拉尼，C.，《最佳运输主题》（美国数学学会，普罗维登斯，RI，2003）·兹比尔1106.90001
[42]	Villani，C.，《最佳交通》，第338卷（Springer-Verlag，柏林，2009年）。旧的和新的·Zbl 1156.53003号
[43]	周德兴，深度卷积神经网络的普遍性，应用。计算。哈蒙。分析48（2）（2020）787-794·Zbl 1434.68531号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

神经ODE作为具有恒定权重的ResNets的深度极限。（英语） Zbl 07362267号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

神经ODE作为具有恒定权重的ResNets的深度极限。 （英语） Zbl 07362267号

MSC公司：

关键词：

软件：

参考文献：

神经ODE作为具有恒定权重的ResNets的深度极限。（英语） Zbl 07362267号