×

深层神经网络中的内隐自我调节:来自随机矩阵理论的证据和对学习的启示。 (英语) Zbl 07415108号

摘要:应用随机矩阵理论(RMT)分析深度神经网络(DNN)的权重矩阵,包括生产质量、预训练模型(如AlexNet和Inception)以及从无到有训练的较小模型(如LeNet5和微型-AlexNet)。经验和理论结果清楚地表明,DNN训练过程本身隐含地实现了一种形式的自我规范化,隐含地塑造了一种更规范的能量或惩罚景观。特别是,DNN层矩阵的经验谱密度(ESD)显示了传统正则化统计模型的特征,即使没有外部指定传统形式的显式正则化,如辍学或权重范数约束。基于相对较新的RMT结果,尤其是其对重尾矩阵普适类的扩展,并将其应用于这些经验结果,我们开发了一个理论来识别5+1训练阶段,对应于内隐自我正则化的增加量。这些阶段可以在培训过程中和最终学习的DNN中观察到。对于较小和/或较旧的DNN,这种隐式自正则化与传统的Tikhonov正则化类似,因为存在将信号与噪声分离的“大小尺度”。然而,对于最先进的DNN,我们发现了一种新形式的重尾自正则化,类似于无序系统统计物理中的自组织(例如实际神经活动的经典模型)。这是由于在所有规模尺度上产生的相关性造成的,而对于DNN而言,这是由于培训过程本身而隐含产生的。这种隐含的自我规范化在很大程度上取决于训练过程中的许多旋钮。特别是,我们证明,只要改变批量大小,就可以让一个小模型展示所有5+1阶段的培训。我们的结果表明,大型、训练有素的DNN体系结构应该表现出重尾自正则化,我们讨论了这一点的理论和实际意义。

理学硕士:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] WeightWatcher,2018年。https://pypi.org/project/WeightWatcher/。
[2] M.S.Advani和A.M.Saxe。神经网络泛化误差的高维动力学。技术报告预印:arXiv:1710.036672017。
[3] J.Alstott、E.Bullmore和D.Plenz。poweraw:用于分析重尾发行版的python包。公共科学图书馆·综合》,9(1):e857772014。
[4] S.Arora、Y.Liang和T.Ma。为什么深层网是可逆的:一个简单的理论,对训练有启示。技术报告预印:arXiv:1511.056532015。
[5] S.Arora、R.Ge、B.Neyshabur和Y.Zhang。通过压缩方法为深度网络提供更强的泛化边界。技术报告预印:arXiv:1802.052962018。
[6] S.Arora、S.S.Du、W.Hu、Z.Li、R.Salakhutdinov和R.Wang。关于无限宽神经网络的精确计算。技术报告预印本:arXiv:1904.119552019a。
[7] S.Arora、S.S.Du、Z.Li、R.Salakhutdinov、R.Wang和D.Yu。在小数据任务中利用无限宽深网的威力。技术报告预印:arXiv:1910.016632019b。
[8] G.Ben Arous和A.Guionnet。重尾随机矩阵的谱。数学物理通信,278(3):715-7512008·Zbl 1157.60005号
[9] D.Arpit、S.Jastrzebski、N.Ballas、D.Krueger、E.Bengio、M.S.Kanwal、T.Maharaj、A.Fischer、A.Courville、Y.Bengio和S.Lacoste-Julien。深入了解深层网络中的记忆。技术报告预印:arXiv:1706.053942017。
[10] A.Auffinger和S.Tang。稀疏重尾随机矩阵的极端特征值。随机过程及其应用,126(11):3310-33302016·Zbl 1350.60047号
[11] A.Auffinger、G.Ben Arous和S.P´ech´e。重尾随机矩阵最大特征值的泊松收敛性。Ann.Inst.H.Poincar´e Probab公司。统计人员。,45(3):589-610, 2009. ·Zbl 1177.15037号
[12] J.Baik、G.Ben Arous和S.P´ech´e。非零复样本协方差矩阵最大特征值的相变。概率年鉴,33(5):1643-16972005·Zbl 1086.15022号
[13] M.Baity-Jesi、L.Sagun、M.Geiger、S.Spigler、G.Ben Arous、C.Cammarota、Y.LeCun、M.Wyart和G.Biroli。比较动力学:深层神经网络与玻璃系统。技术报告预印:arXiv:1803.069692018。
[14] P.Bak、C.Tang和K.Wiesenfeld。自我组织临界性:对噪声的解释。《物理评论快报》,59(4):381-3841987。
[15] C.Baldassi、C.Borgs、J.T.Chayes、A.Ingrosso、C.Lucibello、L.Saglietti和R.Zecchina。学习神经网络的不合理有效性:从可访问状态和鲁棒集成到基本算法方案。程序。国家。阿卡德。科学。美国,113(48):E7655-E76622016。
[16] A.Barra、G.Genovese、F.Guerra和D.Tantari。神经网络有多透明?《统计力学杂志:理论与实验》,2012(07):P070092012。
[17] P.Bartlett、D.J.Foster和M.Telgarsky。神经网络的谱规范化边界。技术报告预印本:arXiv:170608498017。
[18] P.L.Bartlett。为了有效地推广,权重的大小比网络的大小更重要。《神经信息处理系统年度进展9:1996年会议记录》,第134-140页,1997年。
[19] H.Bauke。用最大似然法估计幂律分布的参数。欧洲物理杂志B,58(2):167-1732007。
[20] M.Belkin、S.Ma和S.Mandal。为了理解深度学习,我们需要理解内核学习。技术报告预印:arXiv:1802.013962018。
[21] M.Belkin、D.Hsu、S.Ma和S.Mandal。调和现代机器学习实践和经典偏差-方差权衡。国家。阿卡德。科学。美国,2019年,116:15849-15854·Zbl 1433.68325号
[22] F.Benaych-Georges和A.Guionnet。重尾矩阵特征向量的中心极限定理。《概率电子杂志》,19(54):1-272014·兹比尔1293.15021
[23] E.Bertin和M.Clusel。广义极值统计和相关变量之和。《物理学杂志》。A: 数学。Gen.,39:7607-76202006年·Zbl 1119.62044号
[24] G.Biroli、J.-P.Bouchaud和M.Potters。随机矩阵理论和其他无序系统中的极值问题。《统计力学杂志》。,2007:07019,2007a·Zbl 1456.82488号
[25] G.Biroli、J.-P.Bouchaud和M.Potters。重尾随机矩阵的顶部特征值。欧洲物理快报,78(1):100012007b·Zbl 1244.82029号
[26] J.-P.Bouchaud和M.M´ezard。极值统计的普适类。《物理学报A:数学与概论》,30(23):79971997年·Zbl 0953.60040号
[27] J.P.Bouchaud和M.Potters。随机矩阵理论的金融应用:简短回顾。在G.Akemann、J.Baik和P.Di Francesco编辑的《牛津随机矩阵理论手册》中。牛津大学出版社,2011a·Zbl 1235.91177号
[28] J.P.Bouchaud和M.Potters。随机矩阵理论的金融应用:简评。在G.Akemann、J.Baik和P.Di Francesco编辑的《牛津随机矩阵理论手册》中。牛津大学出版社,2011年b·Zbl 1235.91177号
[29] J.Bun、J.-P.Bouchaud和M.Potters。清理大相关矩阵:来自随机矩阵理论的工具。《物理报告》,666:1-1092017年·Zbl 1359.15031号
[30] Z.Burda和J.Jurkiewicz。重尾随机矩阵。技术报告预印:arXiv:0909.52282009。
[31] Z.Burda、A.T.G¨orlich和B.Wac定律。幂律尾部数据经验协方差矩阵的谱特性。《物理评论》E,74(4):0411292006。
[32] P.Chaudhari和S.Soatto。梯度噪声对深度网络能量景观的影响。技术报告预印:arXiv:1511.06485v42015a。
[33] P.Chaudhari和S.Soatto。关于深层网络的能源景观。技术报告预印:arXiv:1511.06485v52015b。
[34] P.Chaudhari、A.Choromanska、S.Soatto、Y.LeCun、C.Baldassi、C.Borgs、J.Chayes、L.Sagun和R.Zecchina。熵SGD:偏向梯度下降到宽山谷。技术报告预印:arXiv:1611.018382016。
[35] A.Choromanska、M.Henaff、M.Mathieu、G.Ben Arous和Y.LeCun。多层网络的损耗面。技术报告预印:arXiv:1412.02332014。
[36] P.Cizeau和J.P.Bouchaud。具有幂律相互作用的稀自旋玻璃的平均场理论。《物理学杂志A:数学与概论》,26(5):L187-L1941993年。
[37] P.Cizeau和J.P.Bouchaud。L´evy矩阵理论。《物理评论》E,50(3):1810-18221994。
[38] A.Clauset、C.R.Shalizi和M.E.J.Newman。经验数据中的幂律分布。SIAM评论,51(4):661-7032009年·Zbl 1176.62001号
[39] S.Cocco、R.Monasson、L.Posani、S.Rosay和J.Tubiana。真实和人工神经网络中的统计物理和表示。技术报告预印:arXiv:1709.024702017。
[40] A.Corral和A.Deluca。非截尾幂律分布的拟合和良好性检验。地球物理学报,61(6):1351-13942013。
[41] J.D.Cowan、J.Neuman和W.van Drongelen。神经网络中的自组织临界性和近临界性。在D.Plenz和E.Niebur的《神经系统的临界性》编辑中。John Wiley&Sons,2014年。
[42] Y.N.Dauphin、R.Pascanu、C.Gulcehre、K.Cho、S.Ganguli和Y.Bengio。识别和攻击高维非凸优化中的鞍点问题。《神经信息处理系统年度进展27:2014年大会论文集》,第2933-2941页,2014年。
[43] R.A.Davis、O.Pfaffel和R.Stelzer。重尾样本协方差矩阵最大特征值的极限理论。随机过程及其应用,124(1):18-502014·Zbl 1284.60016号
[44] M.Derezi´nski、F.Liang和M.W.Mahoney。通过代理随机设计的双下降和隐式正则化的精确表达式。技术报告预印:arXiv:1912.045332019。
[45] R.O.Duda、P.E.Hart和D.G.Stork。模式分类。John Wiley&Sons,2001年·Zbl 0968.68140号
[46] A.Edelman和N.R.Rao。随机矩阵理论。《数字学报》,14:233-2972005年·Zbl 1162.15014号
[47] A.Edelman和Y.Wang。随机矩阵理论及其创新应用。R.Melnik和I.Kotsireas,编辑,《应用数学、建模和计算科学进展》。施普林格,2013年。
[48] A.Edelman、A.Guionnet和S.P´ech´e。超越随机矩阵理论中的普遍性。附录申请。概率。,26(3):1659-1697, 2016. ·Zbl 1408.60007号
[49] A.Engel和C.P.L.Van den Broeck。学习的统计机制。剑桥大学出版社,纽约,纽约,美国·Zbl 0984.82034号
[50] D.Erhan、Y.Bengio、A.Courville、P.-A.Manzagol、P.Vincent和S.Bengio。为什么无监督的预培训有助于深度学习?机器学习研究杂志,11:625-6602010·Zbl 1242.68219号
[51] D.F´eral和S.P´ech´e。大维格纳矩阵秩一变形的最大特征值。数学物理通信,272(1):185-2282007·Zbl 1136.82016年
[52] P.J.弗雷斯特。随机矩阵系综的谱边。核物理B,402(3):709-7281993·Zbl 1043.82538号
[53] C.D.Freeman和J.Bruna。深度矫正网络优化景观的拓扑和几何。技术报告预印:arXiv:1611.0154016。
[54] A.G´abora和I.Kondor。带有非线性约束和旋转眼镜的投资组合。Physica A:统计力学及其应用,274(1-2):222-2281999。
[55] S.Galluccio、J.-P.Bouchaud和M.Potters。理性决策、随机矩阵和旋转眼镜。《物理学A》,259:449--4561998年。
[56] A.C.Gamst和A.Walker。简单神经网络的能源景观。技术报告预印本:arXiv:1706.071012017。
[57] M.Gardner、J.Grus、M.Neumann、O.Tafjord、P.Dassigi、N.Liu、M.Peters、M.Schmitz和L.Zettlemoyer。AllenNLP:一个深层语义自然语言处理平台。技术报告预印:arXiv:1803.076402018。
[58] R.Giryes、G.Sapiro和A.M.Bronstein。具有随机高斯权重的深度神经网络:一种通用分类策略?IEEE信号处理汇刊,64(13):3444-34572016·Zbl 1414.94217号
[59] D.F.Gleich和M.W.Mahoney。反微分近似算法:最小割、谱和流的案例研究。《第31届机器学习国际会议论文集》,第1018-1025页,2014年。
[60] X.Glorit和Y.Bengio。了解训练深度前馈神经网络的困难。《第十三届人工智能与统计国际研讨会论文集》,第249-256页,2010年。
[61] M.L.Goldstein、S.A.Morris和G.G.Yen。幂律分布拟合问题。欧洲物理杂志B:凝聚物质和复杂系统,41(2):255-2582004。
[62] N.Golmant、N.Vemuri、Z.Yao、V.Feinberg、A.Ghoma、K.Rothauge、M.W.Mahoney和J.Gonzalez。随机梯度下降的大批量计算效率低下。技术报告预印:arXiv:1811.129412018。
[63] I.J.Goodfellow、O.Vinyals和A.M.Saxe。定性描述神经网络优化问题。技术报告预印:arXiv:1412.65442014。
[64] P.Goyal、P.Doll´ar、R.Girshick、P.Noordhuis、L.Wesolowski、A.Kyrola、A.Tulloch、Y.Jia和K.He。精确、大批量SGD:1小时内训练ImageNet。技术报告预印本:arXiv:1706.026772017。
[65] M.Gurbuzbalaban、U.Simsekli和L.Zhu。新加坡元的重尾现象。技术报告预印:arXiv:2006.047402020。
[66] R.Hanel、B.Corominas-Murtra、B.Liu和S.Thurner。用适用于所有指数的估值器拟合经验数据中的幂律。《公共科学图书馆·综合》,12(2):e017092017。
[67] T.Hastie、R.Tibshirani和J.Friedman。统计学习的要素。Springer-Verlag,纽约,2003年。
[68] D.Haussler、M.Kearns、H.S.Seung和N.Tishby。严格的学习曲线边界来自统计力学。机器学习,25(2):195-2361996·Zbl 0870.68131号
[69] 何凯(K.He)、张旭(X.Zhang)、任志刚(S.Ren)和孙建中(J.Sun)。用于图像识别的深度残差学习。技术报告预印:arXiv:1512.033852015。
[70] J.Hesse和T.Gross.自组织临界性是神经系统的一个基本性质。系统神经科学前沿,8(166):1-142014。
[71] H·J·希尔霍斯特。相关变量的中心极限定理:一些评论。巴西物理杂志,39(2A):371-3792009。
[72] L.Hodgkinson和M.W.Mahoney。随机优化中的乘性噪声和重尾。技术报告预印:arXiv:2006.062932020。
[73] E.Hoffer、I.Hubara和D.Soudry。训练时间越长,泛化效果越好:缩小神经网络大批量训练中泛化的差距。技术报告预印:arXiv:1705.087412017。
[74] D.J.Im、M.Tao和K.Branson。深度网络损耗表面的实证分析。技术报告预印:arXiv:1612.040102016。
[75] S.Ioffe。批重正态化:在批规范化模型中减少对小批量的依赖。技术报告预印:arXiv:1702.032752017。
[76] A.Jacot、F.Gabriel和C.Hongler。神经切线核:神经网络中的收敛和泛化。技术报告预印:arXiv:1806.075722018。
[77] S.Jastrzebski、Z.Kenton、D.Arpit、N.Ballas、A.Fischer、Y.Bengio和A.Storkey。影响SGD最小值的三个因素。技术报告预印:arXiv:1711.046232017。
[78] Y.Jiang、P.Foret、S.Yak、D.M.Roy、H.Mobahi、G.K.Dziugaite、S.Bengio、S.Gunasekar、I.Guyon和B.Neyshabur。NeurIPS 2020竞赛:预测深度学习中的泛化(1.0版)。技术报告手稿,2020年6月28日,2020a。
[79] Y.Jiang、P.Foret、S.Yak、D.M.Roy、H.Mobahi、G.K.Dziugaite、S.Bengio、S.Gunasekar、I.Guyon和B.Neyshabur。NeurIPS 2020竞赛:预测深度学习中的泛化(1.1版)。技术报告预印:2020年12月16日:arXiv:2012.07976v12020b。
[80] I.M.约翰斯通。关于主成分分析中最大特征值的分布。《统计年鉴》,第295-327页,2001年·Zbl 1016.62078号
[81] I.M.Johnstone和A.Y.Lu。关于高维主成分分析的一致性和稀疏性。《美国统计协会期刊》,104(486):682-6932009·Zbl 1388.62174号
[82] I.Kanter、Y.Lecun和S.A.Solla。误差曲面的二阶性质:学习时间和泛化。神经信息处理系统进展3,第918-9141991页。
[83] N.El Karoui。关于随机协方差矩阵最大特征值的最新结果和统计应用。波兰生理学报。B系列,B35(9):2681-26972005·Zbl 1371.60018号
[84] N.S.Keskar、D.Mudigere、J.Nocedal、M.Smelyanskiy和P.T.P.Tang。关于深度学习的大背训练:泛化差距和显著极小值。技术报告预印:arXiv:1609.048362016。
[85] A.Klaus、S.Yu和D.Plenz。统计分析支持神经元雪崩中发现的幂律分布。公共科学图书馆·综合》,6(5):e197792011年。
[86] A.Krizhevsky、I.Sutskever和G.E.Hinton。使用深度卷积神经网络进行ImageNet分类。《神经信息处理系统的年度进展》第25期:2012年会议记录,第1097-1105页,2012年。
[87] D.Krueger、N.Ballas、S.Jastrzebski、D.Arpit、M.S.Kanwal、T.Maharaj、E.Bengio、A.Fischer和A.Courville。深网不是通过记忆来学习的。车间内跟踪——2017年、2017年ICLR。
[88] J.Kukaácka、V.Golkov和D.Cremers。深度学习的规则化:一种分类法。技术报告预印:arXiv:1710.106862017。
[89] L.Laloux、P.Cizeau、J.-P.Bouchaud和M.Potters。财务相关性矩阵的噪声修正。物理学。修订稿。,83(7):1467-1470, 1999.
[90] L.Laloux、P.Cizeau、M.Potters和J.-P.Bouchaud。随机矩阵理论和财务相关性。《应用科学中的数学模型和方法》,第109-11页,2005年。
[91] Y.LeCun、L.Bottou和G.Orr。神经网络中的高效反向支持:交易技巧。计算机科学讲义,15241988。
[92] Y.LeCun、L.Bottou、Y.Bengio和P.Haffner。基于梯度的学习应用于文档识别。IEEE会议记录,86(11):2278-23241998。
[93] Y.Levine、D.Yakira、N.Cohen和A.Shashua。深度学习和量子纠缠:与网络设计含义的基本联系。技术报告预印本:arXiv:1704.015522017。
[94] C.Li、H.Farkhoor、R.Liu和J.Yosinski。测量客观景观的内在维度。技术报告预印:arXiv:1804.088382018。
[95] H.Li、Z.Xu、G.Taylor、C.Studer和T.Goldstein。可视化神经网络的损失情况。技术报告预印本:arXiv:1712.09913017。
[96] Q.Liao、B.Miranda、A.Banburski、J.Hidary和T.Poggio。一个令人惊讶的线性关系预测了深层网络中的测试性能。技术报告预印:arXiv:1807.096592018。
[97] Z.Liao和R.Couillet。学习动力:随机矩阵方法。技术报告预印:arXiv:1805.119172018a。
[98] Z.Liao和R.Couillet。关于高维数据的随机特征图的谱。技术报告预印:arXiv:1805.119162018b。
[99] Z.Liao、R.Couillet和M.W.Mahoney。随机傅里叶特征的随机矩阵分析:超出高斯核、精确相变和相应的双下降。技术报告预印:arXiv:2006.050132020。
[100] S.H.Lim、N.B.Erichson、L.Hodgkinson和M.W.Mahoney。噪声递归神经网络。技术报告预印:arXiv:2102.048772021。
[101] C.Louart、Z.Liao和R.Couillet。神经网络的随机矩阵方法。技术报告预印:arXiv:1702.0542017。
[102] M.W.马奥尼。用于大规模数据分析的近似计算和隐式正则化。2012年第31届ACM数据库系统原理研讨会论文集,第143-154页。
[103] M.W.Mahoney和L.Orecchia。通过近似特征向量计算隐式地实现正则化。《第28届机器学习国际会议论文集》,第121-128页,2011年。
[104] S.N.Majumdar和A.Pal.相关随机变量的极值统计。技术报告预印:arXiv:1406.67682014。
[105] Y.Malevergne和D.Sornette。大样本相关矩阵中表观RMT噪声和因子共存的集体起源。技术报告预印:arXiv:cond-mat/02101152002。
[106] Y.Malevergne、V.Pisarenko和D.Sornette。股票收益的经验分布:在拉伸指数和幂律之间?量化金融,5(4):379-4012005·Zbl 1134.91551号
[107] C.H.Martin和M.W.Mahoney。重新思考泛化需要重新审视旧观念:统计力学方法和复杂的学习行为。技术报告预印:arXiv:1710.095532017。
[108] C.H.Martin和M.W.Mahoney。深度学习竞赛的尸检:辛普森悖论以及尺度尺度与形状尺度的互补作用。技术报告预印:arXiv:2106.007342021。
[109] C.H.Martin、T.S.Peng和M.W.Mahoney。预测最先进的神经网络的质量趋势,而无需访问训练或测试数据。技术报告预印:arXiv:2002.067162020。
[110] C.H.Martin、T.S.Peng和M.W.Mahoney。在无需获取训练或测试数据的情况下预测状态神经网络质量的趋势。自然通信,00(00):000-0002021。
[111] D.马斯特斯和C.卢斯基。重温深度神经网络的小批量训练。技术报告预印:arXiv:1804.07612018。
[112] S.Mei和A.Montanari。随机特征回归的泛化误差:精确渐近和双下降曲线。技术报告预印:arXiv:1908.053552019。
[113] S.Mei、A.Montanari和P.-M.Nguyen。两层神经网络景观的平均场视图。程序。国家。阿卡德。科学。美国,115(33):E7665-E76712018·Zbl 1416.92014号
[114] H.Mhaskar和T.Poggio。深度网络与浅层网络:近似理论视角。技术报告预印:arXiv:1608.032872016。
[115] H.Mhaskar和T.Poggio。浅层和深层网络中的训练和泛化错误分析。技术报告预印:arXiv:1802.062662018。
[116] P.Mianjy、R.Arora和R.Vidal。关于辍学的隐性偏见。技术报告预印本:arXiv:1806.0997772018。
[117] S.Minsker和X.Wei。重尾分布协方差结构的估计。技术报告预印:arXiv:1708.005022017。
[118] V.Nagarajan和J.Z.Kolter。一致收敛可能无法解释深度学习中的泛化。技术报告预印:arXiv:1902.04742019。
[119] M.E.J.纽曼。幂律、帕累托分布和齐普夫定律。《当代物理学》,46:323-351005。
[120] B.Neyshabur、R.Tomioka和N.Srebro。寻找真正的归纳偏差:关于内隐正则化在深度学习中的作用。技术报告预印:arXiv:1412.66142014。
[121] B.Neyshabur、R.Tomioka和N.Srebro。神经网络中基于范数的容量控制。《第28届学习理论年会论文集》,第1376-1401页,2015年。
[122] B.Neyshabur、S.Bhojanapalli、D.McAllester和N.Srebro。探索深度学习中的泛化。技术报告预印:arXiv:1706.089472017。
[123] Q.Nguyen和M.Hein。深度和广度神经网络的损失面。《第34届机器学习国际会议论文集》,第2603-2612页,2017年。
[124] 西森。自旋玻璃统计物理与信息处理:导论。牛津大学出版社,牛津,2001年·Zbl 1103.82002号
[125] D.Oprisa和P.Toth。批判性和深度学习I:一般加权网络。技术报告预印:arXiv:1702.08039,2017a。
[126] D.Oprisa和P.Toth。关键性和深度学习II:动量重整组。技术报告预印:arXiv:1705.110232017b。
[127] R.Pascanu、Y.N.Dauphin、S.Ganguli和Y.Bengio。关于非凸优化的鞍点问题。技术报告预印:arXiv:1405.46042014。
[128] D.保罗。大维尖峰协方差模型样本特征结构的渐近性。《中国统计》,第1617-1642页,2007年·Zbl 1134.62029号
[129] D.Paul和A.Aue。统计学中的随机矩阵理论:综述。《统计规划与推断杂志》,150:1-292014·Zbl 1287.62011年
[130] S.P´ech´e.公司。随机矩阵谱的边。技术报告UMR 5582 CNRS-UJF,约瑟夫·傅里叶大学。
[131] J.Pennington和Y.Bahri。基于随机矩阵理论的神经网络损失曲面几何。《第34届机器学习国际会议论文集》,第2798-2806页,2017年。
[132] J.Pennington和P.Worah。用于深度学习的非线性随机矩阵理论。《神经信息处理系统年度进展30:2017年会议记录》,第2637-2646页,2017年。
[133] J.Pennington、S.S.Schoenholz和S.Ganguli。通过动态等距恢复深度学习中的乙状结肠:理论与实践。技术报告预印:arXiv:1711.047352017。
[134] P.O.Perry和M.W.Mahoney。正则拉普拉斯估计和快速特征向量逼近。神经信息处理系统的年度进展24:2011年会议记录,2011年。
[135] T.Poggio、H.Mhaskar、L.Rosasco、B.Miranda和Q.Liao。为什么以及什么时候深层而非浅层网络可以避免维度的诅咒:综述。技术报告预印:arXiv:1611.007402016。
[136] B.Poole、S.Lahiri、M.Raghu、J.Sohl-Dickstein和S.Ganguli。通过瞬态混沌在深度神经网络中的指数表示性。《神经信息处理系统的年度进展29:2016年会议记录》,第3360-3368页,2016年。
[137] C.E.波特和R.G.托马斯。核反应宽度的波动。物理学。版本:104:483-4911956年。
[138] M.Raghu、B.Poole、J.Kleinberg、S.Ganguli和J.Sohl-Dickstein。深度神经网络的表达能力。《第34届机器学习国际会议论文集》,第2847-2854页,2017年。
[139] K.Rajan和L.F.Abbott。神经网络随机矩阵的特征值谱。物理学。修订稿。,97(18):188104, 2006.
[140] S.I.Resnick。重尾现象:概率和统计建模。Springer-Verlag,2007年·Zbl 1152.62029号
[141] D.Rolnick、A.Veit、S.Belongie和N.Shavit。深度学习对大规模标签噪声具有鲁棒性。技术报告预印:arXiv:1705.106942017。
[142] L.Sagun、V.U.Guney、G.Ben Arous和Y.LeCun。探索高维景观。技术报告预印本:arXiv:1412.66152014。
[143] A.M.Saxe、Y.Bansal、J.Dapello、M.Advani、A.Kolcinsky、B.D.Tracey和D.D.Cox。关于深度学习的信息瓶颈理论。InICLR 2018年、2018年。
[144] S.S.Schoenholz、J.Gilmer、S.Ganguli和J.Sohl-Dickstein。深度信息传播。技术报告预印:arXiv:1611.012322016。
[145] B.Sengupta和K.J.Friston。深度神经网络的鲁棒性如何?技术报告预印本:arXiv:1804.113132018。
[146] H.S.Seung、H.Sompolinsky和N.Tishby。从实例中学习的统计机制。《物理评论A》,45(8):6056-6091992年。
[147] C.J.Shallue、J.Lee、J.Antognini、J.Sohl-Dickstein、R.Frostig和G.E.Dahl。测量数据并行性对神经网络训练的影响。技术报告预印本:arXiv:11811.036002018。
[148] O.Shamir、S.Sabato和N.Tishby。学习和概括与信息瓶颈。理论计算机科学,411(29-30):2696-27112010·Zbl 1192.68395号
[149] V.Shankar、A.Fang、W.Guo、S.Fridovich-Keil、L.Schmidt、J.Ragan-Kelley和B.Recht。无切线的神经核。技术报告预印:arXiv:2003.022372020。
[150] R.Shwartz-Ziv和N.Tishby。通过信息打开深层神经网络的黑盒。技术报告预印:arXiv:1703.008102017。
[151] K.Simonyan和A.Zisserman。用于大规模图像识别的深度卷积网络。技术报告预印:arXiv:1409.15562014。
[152] S.L.Smith、P.-J.Kindermans、C.Ying和Q.V.Le。不要降低学习速度,增加批量大小。技术报告预印:arXiv:1711.004892017。
[153] J.Sohl-Dickstein、E.A.Weiss、N.Maheswaranathan和S.Ganguli。使用非平衡热力学进行深度无监督学习。技术报告预印:arXiv:1503.035852015。
[154] H.J.Sommers、A.Crisanti、H.Sompolinsky和Y.Stein。大型随机不对称矩阵的谱。物理学。修订稿。,60(19):1895-1898, 1988.
[155] D.索内特。自然科学中的关键现象:混沌、分形、自组织和无序:概念和工具。Springer-Verlag,柏林,2006年·兹比尔1094.82001
[156] D.Soudry和E.Hoffer。多层神经网络中指数消失的次优局部极小值。技术报告预印:arXiv:1702.057772017。
[157] S.Sukhbaatar、J.Bruna、M.Paluri、L.Bourdev和R.Fergus。训练带有噪声标签的卷积网络。技术报告预印:arXiv:1406.20802014。
[158] M.S–uzen、C.Weber和J.J.Cerdaa。通过代理随机矩阵实现深度学习架构中的谱遍历性。技术报告预印本:arXiv:17004.083032017。
[159] G.Swirszcz、W.M.Czarnecki和R.Pascanu。深层网络训练中的局部极小值。技术报告预印:arXiv:1611.063102016。
[160] C.Szegedy、W.Liu、Y.Jia、P.Sermanet、S.Reed、D.Angelov、D.Erhan、V.Vanhoucke和A.Rabinovich。用卷积深入。《IEEE计算机视觉与模式识别会议论文集》,2015年。
[161] R.Theisen、J.M.Klusowski和M.W.Mahoney。在插值领域,优秀的线性分类器非常丰富。技术报告预印:arXiv:2006.126252020。
[162] N.Tishby和N.Zaslavsky。深度学习和信息瓶颈原则。2015年IEEE信息理论研讨会论文集,ITW 2015,第1-5页,2015年。
[163] N.Tishby、F.C.Pereira和W.Bialek。信息瓶颈方法。技术报告预印本:arXiv:physics/00040572000。
[164] C.A.Tracy和H.Widom。随机矩阵理论的分布及其应用。《数学物理新趋势》编辑V.Sidoraviácius,第753-765页。施普林格,2009年·Zbl 1176.15046号
[165] A.M.Tulino和S.Verd´u。随机矩阵理论和无线通信。通信与信息理论基础与趋势,1(1):1-1822004·Zbl 1133.94014号
[166] V.Vapnik、E.Levin和Y.Le村。测量学习机器的VC-维度。神经计算,6(5):851-8761994。
[167] Y.Virkar和A.Clauset。装箱经验数据中的幂律分布。应用统计年鉴,8(1):89-1192014·Zbl 1454.62150号
[168] G.Wang,J.Peng,P.Luo,X.Wang和L.Lin。批量卡尔曼归一化:用微批量训练深度网络。技术报告预印:arXiv:1802.031332018。
[169] T.L.H.Watkin、A.Rau和M.Biehl。学习规则的统计机制。修订版Mod。物理。,65(2):499-556, 1993.
[170] D.R.Wilson和T.R.Martinez。梯度下降学习批量训练的普遍效率低下。神经网络,16(10):1429-14512003。
[171] K.Y.M.Wong。用于神经网络的粗略能量景观中的微观方程。《神经信息处理系统的年度进展:1996年会议记录》,第302-308页,1997年。
[172] L.Wu、Z.Z.Zu和Weinan E.理解深度学习的泛化:损失景观的视角。技术报告预印:arXiv:1706.102392017。
[173] C.Xing、D.Arpit、C.Tsirigotis和Y.Bengio。与SGD一起散步。技术报告预印本:arXiv:1802.087702018。
[174] Z.Yao、A.Ghoma、Q.Lei、K.Keutzer和M.W.Mahoney。基于Hessian的大批量训练分析和对对手的鲁棒性。技术报告预印:arXiv:1802.082412018。
[175] Y.Yoshida和T.Miyato。谱范数正则化用于提高深度学习的泛化性。技术报告预印:arXiv:1705.109412017。
[176] S.Yu、R.Jenssen和J.C.Principe。用信息论理解卷积神经网络训练。技术报告预印:arXiv:1804.065372018。
[177] M.D.Zeiler和R.Fergus。可视化和理解卷积网络。技术报告预印:arXiv:1311.29012013。
[178] C.Zhang、S.Bengio、M.Hardt、B.Recht和O.Vinyals。理解深度学习需要重新思考泛化。技术报告预印:arXiv:1611.03530,2016。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。