文件Zbl 07787308-zbMATH Open

带有机器学习型噪声的随机梯度下降。二：连续时间分析。（英语） Zbl 07787308号

非线性科学杂志。 34，第1号，第16号论文，45页（2024年）.

摘要：人工神经网络对函数的表示依赖于大量非线性参数。通过最小化“损失函数”来找到合适的参数，通常是通过随机梯度下降（SGD）或基于SGD的高级算法。在噪声遵循“机器学习缩放”的SGD连续时间模型中，我们表明，在一定的噪声范围内，优化算法在某种意义上倾向于目标函数的“平坦”极小值，这与均匀噪声连续时间SGD的平坦最小值选择不同。
第一部分见[提交人，同上，第33号，第3号，第45号文件，52页（2023年；Zbl 1518.90085号)].

MSC公司：

90C26型	非凸规划，全局优化
68T07型	人工神经网络与深度学习
35K65型	退化抛物方程
60华氏30	随机分析的应用（PDE等）

关键词：

随机梯度下降;非凸优化;机器学习;深度学习;过度参数化;随机微分方程;不变分布;隐性偏见;全局最小选择;平坦最小选择;退化扩散方程;Poincaré-Hardy不等式

引文：

Zbl 1518.90085号

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	阿格拉乔夫，A.，巴里拉里，D.，博斯卡因。美国：《亚黎曼几何综合导论》，第181卷。剑桥大学出版社（2019）·Zbl 1487.53001号
[2]	Aniţa，ö-L，通过Fokker-Planck方程实现随机微分方程的最优控制，应用。数学。最佳。，84，增刊2，1555-1583（2021）·Zbl 1485.93621号 ·doi:10.1007/s00245-021-09804-5
[3]	巴里拉里，D。；博斯卡因，美国。；Charlot，G。；Neel，RW，《关于一般黎曼和次黎曼结构的热扩散》，《国际数学》。Res.Not.，不适用。，2017, 15, 4639-4672 (2017) ·Zbl 1405.58006号
[4]	Bonforte，M。；多尔博，J。；Grillo，G。；Vázquez，J-L，非线性快速扩散方程解的夏普衰减率，通过泛函不等式，Proc。国家。阿卡德。科学。，107, 38, 16459-16464 (2010) ·Zbl 1256.35026号 ·doi:10.1073/pnas.1003972107
[5]	Brezis，H.，《函数分析》（2011），纽约：Sobolev空间和偏微分方程。Universitext公司。纽约州施普林格·Zbl 1220.46002号
[6]	Chizat，L。；Bach，F.，《关于使用最优传输的超参数模型梯度下降的全局收敛性》，Adv.Neural Inform。过程。系统。，34, 3036-3046 (2018)
[7]	Chizat，L.，Bach，F.：用逻辑损失训练的宽双层神经网络的梯度下降隐式偏差。arxiv:2002.04486，（2020）
[8]	De Lellis，C.：关于可直集、密度和正切测度的讲义。苏黎世法律。高级数学。7 (2008) ·邮编：1183.28006
[9]	Damian，A.，Ma，T.，Lee，J.D.：标签噪音SGD显然更喜欢平坦的全局最小值。收录：Beygelzimer，A.、Dauphin，Y.、Liang，P.和Vaughan，J.W.（编辑），《神经信息处理系统进展》（2021）
[10]	多尔博，J。；Volzone，B.，改进的Poincaré不等式，非线性分析。理论方法应用。，75, 16, 5985-6001 (2012) ·Zbl 1250.26018号 ·doi:10.1016/j.na.2012.05.008
[11]	Evans，L.C.，Gariepy，R.F.：函数的测度理论和精细特性。CRC出版社，（2015）·Zbl 1310.28001号
[12]	Edmunds，D。；Peletier，L.，退化椭圆方程的Liouville定理，J.Lond。数学。Soc.，2，1，95-100（1973年）·Zbl 0262.35023号 ·doi:10.1112/jlms/s2-7.1.95
[13]	Evans，L.C.：偏微分方程，数学研究生课程第19卷。美国数学学会，普罗维登斯，RI，第二版，（2010）·Zbl 1194.35001号
[14]	Friedman，A.，抛物线型偏微分方程（2008），美国：Courier Dover Publications，USA
[15]	弗南德斯·雷尔，X。；Ros-Oton，X.，《一般稳定算子的正则性理论：抛物方程》，J.Funct。分析。，272, 10, 4165-4221 (2017) ·Zbl 1372.35058号 ·doi:10.1016/j.jfa.2017.02.015
[16]	Ge，R.，Huang，F.，Jin，C.，Yuan，Y.：逃离鞍点——张量分解的在线随机梯度。摘自：学习理论会议，第797-842页。PMLR（2015）
[17]	Gupta，K.，Siegel，J.W.，Wojtowytsch，S.：在非常嘈杂的梯度下实现加速度。arXiv:2302.05515v2，（2023）
[18]	Gilbarg，D.，Trudinger，N.S.：二阶椭圆偏微分方程，第224卷。斯普林格（2015）·Zbl 1042.35002号
[19]	Hoffer，E.，Hubara，I.，Soudry，D.：训练时间越长，泛化效果越好：缩小神经网络大批量训练中泛化的差距。arXiv预印arXiv:1705.08741，（2017）
[20]	Hassannezhad，A.，Kokarev，G.：次黎曼流形上的次拉普拉斯特征值界。arXiv预输入rXiv:1407.0358，（2014）·Zbl 1390.35205号
[21]	Hu，K.，Ren，Z.，Siska，D.，Szpruch，L.：神经网络的平均场Langevin动力学和能量景观。arXiv:1905.07769，（2019）·Zbl 1492.65023号
[22]	Jastrzȩbski，S.、Kenton，Z.、Arpit，D.、Ballas，N.、Fischer，A.、Bengio，Y.、Storkey，A.：影响SGD最小值的三个因素。arXiv-premintarXiv:1711.04623，（2017）
[23]	约旦共和国。；Kinderlehrer，D。；奥托，F.，《福克-普朗克方程的变分公式》，SIAM数学杂志。分析。，29, 1, 1-17 (1998) ·Zbl 0915.35120号 ·doi:10.1137/S0036141096303359
[24]	Javanmard，A.，Mondelli，M.，Montanari，A.：通过位移凸性分析双层神经网络。arXiv-printarXiv:1901.01375，（2019）·Zbl 1464.62401号
[25]	Jabir，J.-F.，Šiška，D.，Szpruch，Ł.：通过松弛最优控制实现平均场神经网络模型。arXiv预印本arXiv:1912.05475，（2019）
[26]	Klenke，A.，Wahrscheinlichkeits theorie（2006年），Cham:Springer，Cham·兹比尔1103.60001
[27]	Latz，J.：连续时间随机梯度下降分析。arXiv预输入rXiv:2004.07177，（2020）·Zbl 1475.90105号
[28]	Li，Q.，Tai，C.：W.E.随机梯度算法的动力学。arXiv:1511.06251（2015）
[29]	Li，Q.，Tai，C.，Weinan，E.：随机修正方程和自适应随机梯度算法。摘自：机器学习国际会议，第2101-2110页。PMLR（2017）
[30]	Luo，V.，Wang，Y.：有多少因素影响SGD的最小值？arXiv预输入rXiv：2009.11858，（2020）
[31]	Li，Z.，Wang，T.，Arora，S.：SGD达到零损失后会发生什么-数学框架。In:国际学习代表大会，（2022）
[32]	Liu，K.，Ziyin，L.，Ueda，M.：学习率高的随机梯度下降。arXiv预输入rXiv:2012.03636，（2020）
[33]	N.马斯穆迪：关于哈代不平等。摘自：《数学邀请函》，第165-180页。施普林格（2011）·Zbl 1317.26017号
[34]	Mandt，S.，Hoffman，M.D.，Blei，D.M.：重新审视随机梯度下降的连续时间极限。NIPS-2015（2015）
[35]	Mandt，S.，Hoffman，M.，Blei，D.：随机梯度算法的变分分析。摘自：机器学习国际会议，第354-363页。PMLR，（2016）
[36]	Mei，S.，Misiakiewicz，T.，Montanari，A.：双层神经网络的平均场理论：无量纲界限和核极限。arXiv-printarXiv:1902.06015，（2019）
[37]	梅，S。；Montanari，A。；Nguyen，P-M，双层神经网络景观的平均场视图，Proc。国家。阿卡德。科学。，115、33、E7665-E7671（2018）·Zbl 1416.92014号 ·doi:10.1073/pnas.1806579115
[38]	Neelakantan，A.、Vilnis，L.、Le，Q.V.、Sutskever，I.、Kaiser，L.，Kurach，K.、Martens，J.：添加梯度噪声可以改进非常深层网络的学习。arXiv预输入rXiv:1511.06807，（2015）
[39]	Persson，A.，半有界Schrödinger算子谱的离散部分的界，数学。扫描。，8, 1, 143-153 (1960) ·Zbl 0145.14901号 ·doi:10.7146/毫米。标准偏差-10602
[40]	Robbins，H.，Monro，S.：一种随机近似方法。年鉴。《数学统计》第400-407页，（1951年）·Zbl 0054.05901号
[41]	罗斯·奥顿，X。；Serra，J.，一般稳定算子的正则性理论，J.Diff.Equ。，260, 12, 8675-8715 (2016) ·Zbl 1346.35220号 ·doi:10.1016/j.jde.2016.02.033
[42]	Raginsky，M.，Rakhlin，A.，Telgarsky，M.:通过随机梯度Langevin动力学的非凸学习：非共鸣分析。摘自：学习理论会议，第1674-1703页。PMLR（2017）
[43]	Rotskoff，G.M.，Vanden-Eijnden，E.：作为相互作用粒子系统的神经网络：损失景观的渐近凸性和近似误差的普适标度。arXiv:1805.00915，（2018）
[44]	Smith，S.L.，Le，Q.V.：关于泛化和随机梯度下降的贝叶斯观点。arXiv预输入rXiv:1710.06451，（2017）
[45]	西里尼亚诺，J。；Spiliopoulos，K.，《连续时间内的随机梯度下降》，SIAM J.Financ。材料，8，1933-961（2017）·Zbl 1407.91258号 ·doi:10.1137/17M1126825
[46]	西里尼亚诺，J。；Spiliopoulos，K.，《神经网络的平均场分析：大数定律》，SIAM J.Appl。数学。，80, 2, 725-752 (2020) ·Zbl 1440.60008号 ·doi:10.1137/18M1192184
[47]	西里尼亚诺，J。；Spiliopoulos，K.，连续时间中的随机梯度下降：一个中心极限定理，随机系统。，10, 2, 124-151 (2020) ·Zbl 1450.60020号 ·doi:10.1287/stsy.2019.0050
[48]	Simsekli，U.，Sagun，L.，Gurbuzbalaban，M.：深层神经网络中随机梯度噪声的尾模态分析。摘自：机器学习国际会议，第5827-5837页。PMLR，（2019）
[49]	西部，北京；格里戈里尼，P。；梅茨勒，R。；Nonnenmacher，TF，分数扩散和勒维稳定过程，物理学。E版，55、1、99（1997）·doi:10.1103/PhysRevE.55.99
[50]	Wojtowytsch，S.：关于平均场状态下双层Relu网络梯度下降训练的全局收敛性。arXiv:2005.13530，（2020）
[51]	Wojtowytsch，S.，带机器学习型噪声的随机梯度下降。第一部分：离散时间分析，非线性科学杂志。，33, 45 (2023) ·Zbl 1518.90085号 ·doi:10.1007/s00332-023-09903-3
[52]	Welling，M.，Teh，Y.W.：通过随机梯度Langevin动力学进行贝叶斯学习。摘自：第28届国际机器学习会议记录（ICML-11），第681-688页。Citeser（2011）
[53]	周，P.，冯，J.，马，C.，熊，C.，HOI，S.：等。从理论上理解为什么SGD在深度学习中比亚当概括得更好。arXiv预输入rXiv:2010.05627，（2020）
[54]	Ziyin，L.，Liu，K.，Mori，T.，Ueda，M.：SGD中的小批量噪声强度。arXiv预打印arXiv:2102.05375，（2021）
[55]	Zhu，Z.，Wu，J.，Yu，B.，Wu.，L.，Ma，J.：随机梯度下降中的各向异性噪声：其逃离尖锐极小值和正则化效应的行为。arXiv-premintarXiv:1803.00195，（2018）

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

带有机器学习型噪声的随机梯度下降。二：连续时间分析。（英语） Zbl 07787308号

MSC公司：

关键词：

引文：

参考文献：

示例

字段

操作员

带有机器学习型噪声的随机梯度下降。二： 连续时间分析。 （英语） Zbl 07787308号

MSC公司：

关键词：

引文：

参考文献：

带有机器学习型噪声的随机梯度下降。二：连续时间分析。（英语） Zbl 07787308号