×

师生环境中两层神经网络的随机梯度下降动力学。 (英语) Zbl 07330531号

摘要:深度神经网络即使有足够的参数来轻松拟合所有训练数据,也能实现恒星概括。我们通过分析师生设置中过参数化双层神经网络的动力学和性能来研究这一现象,其中一个网络,即学生,是根据另一个网络(即教师)生成的数据进行训练的。我们展示了随机梯度下降(SGD)的动力学是如何被一组微分方程捕获的,并证明了这种描述在大输入极限下是渐近精确的。利用这个框架,我们计算了参数比教师多的学生网络的最终泛化误差。我们发现,当只训练第一层时,学生的最终泛化误差随着网络规模的增加而增加,而当训练两层时,则保持不变,甚至随着规模的增大而减小。我们表明,这些不同的行为根源于SGD为不同的激活函数找到的不同解决方案。我们的结果表明,在神经网络中实现良好的泛化不仅仅是SGD的特性,还取决于算法、模型结构和数据集的相互作用。

MSC公司:

82至XX 统计力学,物质结构

关键词:

机器学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] LeCun Y、Bengio Y和Hinton G 2015深度学习自然521 436-44·doi:10.1038/自然14539
[2] Simonyan K和Zisserman A 2015用于大规模图像识别的极深卷积网络国际学习表征会议
[3] Bartlett P L和Mendelson S 2003 Rademacher和Gaussian复杂性:风险边界和结构结果J.Mach。学习。决议3463-82·Zbl 1084.68549号
[4] Mohri M、Rostamizadeh A和Talwalkar A 2012机器学习基础(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 1318.68003号
[5] Neyshabur B、Tomioka R和Srebro N 2015基于规范的能力控制神经网络学习理论会议
[6] Golowich N、Rakhlin A和Shamir O 2018神经网络的尺寸相关样本复杂性Proc。第31届学习理论大会第297-9页
[7] Dziugaite G和Roy D 2017计算具有比训练数据多得多的参数的深度(随机)神经网络的非敏锐泛化界Proc。第33届人工智能不确定性大会
[8] Arora S、Ge R、Neyshabur B和Zhang Y 2018年通过压缩方法实现深层网的更强泛化界限第35届国际机器学习大会,ICML 2018第390-418页
[9] Allen-Zhu Z,Li Y和Liang Y 2018超参数神经网络的学习和泛化,超越两层(arXiv:1811.04918)
[10] Neyshabur B、Tomioka R和Srebro N 2015寻找真正的归纳偏差:关于内隐正则化在深度学习ICLR中的作用
[11] Zhang C、Bengio S、Hardt M、Recht B和Vinyals O 2017理解深度学习需要重新思考泛化ICLR
[12] Arpit D等人2017深入研究深层网络中的记忆过程。第34届国际机器学习大会
[13] Chaudhari P和Soatto S 2018关于学习表征随机梯度下降国际会议的归纳偏差
[14] Soudry D、Hofer E和Srebro N 2018可分离数据梯度下降的内隐偏差学习表征国际比较·Zbl 1477.62192号
[15] Gunasekar S、Woodworth B、Bhojanapalli S、Neyshabur B和Srebro N 2017神经信息处理系统矩阵分解中的隐式正则化进展vol 30 pp 6151-9
[16] Li Y、Ma T和Zhang H 2018超参数矩阵传感和二次激活神经网络中的算法正则化学习理论第2-47页
[17] Seung H S、Sompolinsky H和Tishby N,1992年,从实例中学习的统计力学物理。版次A 45 6056-91·doi:10.1103/physreva.45.6056
[18] Engel A和Van den Broeck C,2001统计学习力学(剑桥:剑桥大学出版社)·Zbl 0984.82034号 ·doi:10.1017/CBO9781139164542
[19] Vapnik V 1998统计学习理论第156-60页·Zbl 0935.62007号
[20] Gardner E和Derrida B 1989关于网络最佳存储容量的三项未完成工作J.Phys。A: 数学。创世号:1983-1994·doi:10.1088/0305-4470/22/004
[21] Kinzel W、Ruján P和Rujan P 1990通过选择示例Europhys提高网络泛化能力。信函13 473-7·doi:10.1209/0295-5075/13/5/016
[22] Watkin T L H,Rau A和Biehl M 1993学习规则的统计力学Rev.Mod。物理65 499-556·doi:10.1103/revmodphys.65.499
[23] ZdeborováL和Krzakala F 2016推理统计物理:阈值和算法高级物理65 453-552·doi:10.1080/00018732.2016.1211393
[24] Advani M和Ganguli S 2016高维物理中最优凸推断的统计力学。修订版X 6 1-16·doi:10.1103/physrevx.6.031034
[25] Chaudhari P等人2017熵SGD:偏置梯度下降到宽谷ICLR
[26] Advani M和Saxe A 2017神经网络泛化误差的高维动力学(arXiv:1710.03667)
[27] Aubin B等人2018委员会机器:两层神经网络学习中的计算到统计差距神经信息处理系统进展vol 31 pp 3227-38
[28] Baity-Jesi M等人,2018,比较动力学:深层神经网络与玻璃系统。第35届国际机器学习大会
[29] Mei S、Montanari A和Nguyen P-M 2018双层神经网络景观的平均场视图。美国国家科学院。科学.115 E7665-71·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[30] Rotskof G和Vanden-Eijnden E 2018作为相互作用粒子的参数:神经网络的长时间收敛和渐近误差标度神经信息处理系统进展vol 31 pp 7146-55
[31] Chizat L和Bach F 2018关于使用最优传输的超参数模型梯度下降的全局收敛性神经信息处理系统进展vol 31 pp 3040-50
[32] Sirignano J和Spiliopoulos K 2019神经网络的平均场分析:中心极限定理Stoch。过程。申请编号:130 1820-52·Zbl 1441.60022号 ·doi:10.1016/j.spa.2019.06.003
[33] Jacot A、Gabriel F和Hongler C 2018神经切线核:神经网络的收敛和泛化神经信息处理系统进展vol 32 pp 8571-80
[34] Du S、Zhai X、Poczos B和Singh A 2019梯度下降法可证明优化了过参数化神经网络国际学习表征会议(https://openreview.net/forum?id=S1eK3i09YQ)
[35] Allen-Zhu Z、Li Y和Song Z 2018通过过度参数化实现深度学习的收敛理论(arXiv:1811.03962)
[36] Li Y和Liang Y 2018通过结构化数据的随机梯度下降学习超参数神经网络神经信息处理系统进展
[37] Zou D、Cao Y、Zhou D和Gu Q 2020随机梯度下降优化了参数化深度ReLU网络的马赫数。学习109 467-92·Zbl 1494.68245号 ·doi:10.1007/s10994-019-05839-6
[38] Chizat L、Oyallon E和Bach F 2019关于微分编程中的懒惰训练神经信息处理系统的进展
[39] Mei S、Misiakiewicz T和Montanari A 2019双层神经网络的平均场理论:无量纲界限和核极限(arXiv:1902.06015)
[40] Biehl M和Schwarze H 1995通过在线梯度下降学习J.Phys。A: 数学。第28代643-56·Zbl 0960.68635号 ·doi:10.1088/0305-4470/28/3/018
[41] Saad D和Solla S A 1995多层神经网络在线学习的精确解决方案Phys。修订稿74 4337-40·doi:10.1103/physrevlett.74.4337
[42] Saad D和Solla S A 1995年在软委员会机器物理中进行在线学习。版次E 52 4225-43·doi:10.1103/physreve.52.4225
[43] Riegler P和Biehl M 1995双层神经网络中的在线反向传播J.Phys。A: 数学。第28代·兹伯利0878.68101 ·doi:10.1088/0305-4470/28/20/002
[44] Saad D和Solla S 1997使用噪声和正则化器学习多层神经网络神经信息处理系统进展9 pp 260-6
[45] Wang C,Hu H和Lu Y M 2018 GAN的一个可解高维模型(arXiv:1805.08349)
[46] Krogh A和Hertz J A 1992年在噪声存在下线性感知器中的推广J.Phys。A: 数学。第25代1135-47·Zbl 0747.92009号 ·doi:10.1088/0305-4470/25/5/020
[47] Saxe A、McClelland J L和Ganguli S 2014深度线性神经网络学习非线性动力学的精确解
[48] Lampinen A和Ganguli S 2019深度线性网络中泛化动力学和迁移学习的分析理论学习表征国际会议
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。