×

深度ResNet的过度参数化:零损失和平均场分析。 (英语) Zbl 07625201号

摘要:在深度神经网络(NN)中寻找适合训练数据的参数是一个非凸优化问题,但基本的一阶优化方法(梯度下降)可以在许多实际情况下找到具有完美拟合(零丢失)的全局优化器。我们在具有光滑激活函数的剩余神经网络(ResNet)的情况下,在一个限制区域中,层数(深度)和每层中的权重数(宽度)都趋于无穷大的情况下检验了这一现象。首先,我们使用平均场极限参数来证明参数训练的梯度下降成为概率分布的梯度流,该概率分布的特征是偏微分方程(PDE)在大-NN极限下。接下来,我们证明了在某些假设下,PDE的解在训练时间内收敛到零损失解。总之,这些结果表明,如果ResNet足够大,则ResNet的训练给出接近零的损失。我们估计了将损失降低到给定阈值以下所需的深度和宽度,概率很高。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Z.Allen-Zhu和Y.Li。ResNet除了内核之外,还能有效地学习什么?《神经信息处理系统进展》,2019年。
[2] Z.Allen-Zhu、Y.Li和Z.Song。通过超参数化进行深度学习的收敛理论。第36届机器学习国际会议论文集,第242-252页,2019年。
[3] L.Ambrosio、N.Gigli和G.Savaré。梯度流:在度量空间和概率测度空间中。施普林格科技与商业媒体。Birkhäuser巴塞尔,2008年·Zbl 1145.35001号
[4] D.Araújo、R.Oliveira和D.Yukimura。某些深度神经网络的平均场极限。arXiv/1906.001932019年。
[5] S.Arora、S.Du、W.Hu、Z.Li、R.Salakhutdinov和R.Wang。关于无限宽神经网络的精确计算。神经信息处理系统进展,2019年。
[6] J.Ba、M.Erdogdu、T.Suzuki、D.Wu和T.Zhang。两层神经网络的推广:一个渐进的观点。2020年国际学习代表大会。
[7] P.Bartlett、S.Evans和P.Long。将平滑函数表示为具有深层网络优化含义的近恒等式函数的组合。arXiv/1804.050122018a。
[8] P.Bartlett、D.Helmbold和P.Long。带有身份初始化的梯度下降法通过深度剩余网络有效地学习正定线性变换。在的诉讼中·Zbl 1475.68311号
[9] N.Chatterji、P.Long和P.Bartlett。带逻辑损失的梯度下降法何时找到插值双层网络?机器学习研究杂志,22(159):1-482021·兹比尔07451102
[10] Z.Chen、Y.Cao、Q.Gu和T.Zhang。两层神经网络的广义神经切线核分析。《神经信息处理系统进展》,第33卷,第13363-13373页,2020年。
[11] L.Chizat和F.Bach。基于最优传输的超参数模型梯度下降的全局收敛性。神经信息处理系统研究进展,2018年。
[12] S.Du和J.Lee。二次激活神经网络的过参数化能力。第35届机器学习国际会议论文集,第1329-1338页,2018年。
[13] S.Du、C.Jin、J.Lee、M.Jordan、A.Singh和B.Póczos。梯度下降可能需要指数时间才能摆脱鞍点。神经信息处理系统研究进展,2017年。
[14] S.Du、J.Lee、H.Li、L.Wang和X.Zhai。梯度下降法寻找深层神经网络的全局极小值。第36届机器学习国际会议论文集,第97卷,2019a。
[15] S.Du、X.Zhai、B.Poczos和A.Singh。梯度下降可证明优化了超参数神经网络。2019b国际学习代表大会。
[16] W.E、C.Ma和L.Wu。从持续的角度进行机器学习,I.科学中国数学,63(11):2233-22662020a年9月·Zbl 1472.68136号
[17] W.E.、C.Ma、L.Wu和S.Wojtowytsch。对基于神经网络的机器学习的数学理解:我们知道什么,不知道什么。CSIAM交易
[18] C.Fang、Y.Gu、W.Zhang和T.Zhang。超参数化深度神经网络的凸公式。arXiv/1911/0762622019·Zbl 1508.68305号
[19] C.Fang、J.Lee、P.Yang和T.Zhang。从特征建模:用于超参数化深层神经网络的平均场框架。学习理论会议,2021年。
[20] S.Frei、Y.Cao和Q.Gu。超参数深残差网络的算法相关泛化界。神经信息处理系统进展,第32卷,2019年。
[21] R.Ge、F.Huang、C.Jin和Y.Yuan。逃离鞍点——张量分解的在线随机梯度。《第28届学习理论会议论文集》,第797-842页,2015年。
[22] R.Ge、J.Lee和T.Ma。通过景观设计学习单层神经网络。2018年国际学习代表大会。
[23] J.-F.贾比尔、D.Šiška和Ł。Szpruch。通过松弛最优控制的平均场神经ODE。arxiv/1912.054752021年。
[24] A.Jacot、F.Gabriel和C.Hongler。神经切线核:神经网络中的收敛和泛化。神经信息处理系统研究进展,2018年。
[25] C.Jin、R.Ge、P.Netrapalli、S.Kakade和M.Jordan。如何有效地避开鞍点。《第34届机器学习国际会议论文集》,第1724-1732页,2017年。
[26] 川口。深度学习,没有不良的局部极小值。神经信息处理系统进展,2016年。
[27] Y.Li和Y.Liang。基于结构化数据的随机梯度下降学习超参数神经网络。第32届神经科学国际会议论文集
[28] C.Liu、L.Zhu和M.Belkin。关于大型非线性模型的线性:切线核是常数的时间和原因。《神经信息处理系统进展》,第15954-159642020页。
[29] Y.Lu、C.Ma、Y.Lu.、J.Lu和L.Ying。深度ResNet及其以外的平均场分析:通过深度超参数化实现可证明的优化。诉讼中
[30] S.Mei、A.Montanari和P.Nguyen。两层神经网络景观的平均场视图。《美国国家科学院院刊》,115(33):E7665-E76712018·2014年6月14日
[31] P-M.Nguyen。多层神经网络学习动力学的平均场极限。arXiv/1902.028802019年。
[32] P.-M.Nguyen和H.Pham。多层神经网络平均场极限的严格框架。arxiv/201114432021。
[33] Q.Nguyen和M.Hein。深度和广度神经网络的损失面。《第34届机器学习国际会议论文集》,第2603-2612页,2017年。
[34] Q.Nguyen和M.Hein。深度CNN的优化布局和表达能力。2018年第35届机器学习国际会议论文集。
[35] H.Pham和P.-M.Nguyen。平均场区三层神经网络的全局收敛性。2021年国际学习代表大会。
[36] I.Safran、G.Yehudai和O.Shamir。轻度过度参数化对浅层ReLU神经网络优化景观的影响。第34届会议记录
[37] J.Sirignano和K.Spiliopoulos。神经网络的平均场分析:一个大数定律。SIAM应用数学杂志,80(2):725-7522020·Zbl 1440.60008号
[38] J.Sirignano和K.Spiliopoulos。深层神经网络的平均场分析。运筹学数学,2021年·Zbl 1493.68333号
[39] M.Soltanolkotabi、A.Javanmard和J.Lee。对超参数化浅层神经网络优化前景的理论见解。IEEE传输。信息理论。,65(2):742-7692019年2月·Zbl 1428.68255号
[40] C.Wei、J.Lee、Q.Liu和T.Ma。正则化问题:神经网络的泛化和优化及其诱导核。神经信息处理系统进展,2019年。
[41] S.Wojtowytsch。关于平均场区域两层ReLU-networks梯度下降训练的收敛性。
[42] C.Yun、S.Sra和A.Jadbabaie。深度神经网络的全局最优性条件。在2018年国际学习代表大会上。
[43] H.Zhang、D.Yu、M.Yi、W.Chen和T.Liu。学习超参数化ResNet的收敛理论:一个完整的刻画。
[44] D.Zou、Y.Cao、D.Zhou和Q.Gu。梯度下降优化了过参数化的深层ReLU网络。机器学习,109:467-492020·Zbl 1494.68245号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。