×

分布随机梯度的连续时间分析。 (英语) Zbl 07268863号

摘要:我们分析了同步对分布式随机梯度算法的影响。通过与生物群体感应的动力学模型进行类比,其中代理之间的同步是通过与公共信号的通信诱导的,我们量化了同步如何显著降低单个分布式代理感受到的噪声大小及其空间平均值。这种降噪又与随机梯度近似所施加的损失函数平滑度的降低有关。通过对模型非凸目标的仿真,我们证明了耦合可以稳定较高的噪声水平并改善收敛性。对于基于群体感知的算法、具有动量的相同算法和弹性平均SGD(EASGD)算法,我们通过从全局极小值导出代理的空间平均值的期望偏差的界,对强凸函数进行了收敛性分析。我们讨论了新算法的扩展,这些算法允许每个代理传播其当前的成功度量,并相应地形成集体计算。我们用在CIFAR-10数据集上训练的卷积神经网络的数值实验来补充我们的理论分析,其中我们注意到EASGD的一个令人惊讶的正则性,即使应用于非分布式情况。这一观察结果表明,非分布优化的替代二阶时间算法与动量方法具有竞争力。

MSC公司:

65K10码 数值优化和变分技术
92B25型 生物节律和同步
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 巴赫,F.和穆林,E.(2013)。收敛速度为o(1/n)的非严格凸光滑随机逼近。C.J.C.Burgess、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,26(第773-781页)。纽约州红钩市:Curran。
[2] Banburski,A.、Liao,Q.、Miranda,B.、Rosasco,L.、Liang,B.、Hidary,J.和Poggio,T.A.(2019年)。理论三:深网络中的动力学和泛化。CoRR,abs/1903.04991。
[3] Betancourt,M.、Jordan,M.I.和Wilson,A.C.(2018)。关于辛优化。doi:,
[4] Bottou,L.(1998)。神经网络中的在线学习。纽约:剑桥大学出版社·Zbl 0968.68127号
[5] Bottou,L.(2010)。具有随机梯度下降的大规模机器学习。《第19届国际计算统计会议论文集》(第177-187页)。柏林:斯普林格·Zbl 1436.68293号
[6] Bouvrie,J.和Slotine,J.-J.(2013)。同步和噪声:神经系统中的正则化机制。arXiv:1312.1632。
[7] Boyd,S.、Parikh,N.、Chu,E.、Peleato,B.和Eckstein,J.(2010年)。通过交替方向乘数法进行分布式优化和统计学习。机器学习的基础和趋势,3(1),1-122·Zbl 1229.90122号
[8] Chaudhari,P.、Baldassi,C.、Zecchina,R.、Soatto,S.、Talwalkar,A.和Oberman,A.(2017)。并行:并行化随机梯度下降。arXiv:1707.00424。
[9] Chaudhari,P.、Oberman,A.、Osher,S.、Soatto,S.和Carlier,G.(2018年)。深度松弛:用于优化深度神经网络的偏微分方程。数学科学研究,5·Zbl 1427.82032年
[10] Chaudhari,P.和Soatto,S.(2018年)。随机梯度下降进行变分推理,收敛到深网络的极限环。2018年信息理论与应用研讨会论文集(第1-10页)。doi:,
[11] Chung,S.和Slotine,J.E.(2009年)。拉格朗日系统的协作机器人控制和并发同步。IEEE机器人学报,25(3),686-700。doi:,
[12] Dean,J.、Corrado,G.、Monga,R.、Chen,K.、Devin,M.、Mao,M.…Ng,A.Y.(2012)。大规模分布式深网络。F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第1223-1231页)。纽约州红钩市:Curran。
[13] Defazio,A.、Bach,F.和Lacoste-Julien,S.(2014)。Saga:支持非强凸复合目标的快速增量梯度方法。Z.Ghahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,27(第1646-1654页)。纽约州红钩市:Curran。
[14] Denève,S.,&Machens,C.K.(2016)。高效的代码和平衡的网络。《自然神经科学》,19375-382。https://doi.org/10.1038/nn.4243,
[15] Duchi,J.、Hazan,E.和Singer,Y.(2011年)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12,2121-2159·Zbl 1280.68164号
[16] Feng,Y.,Li,L.,&Liu,J.G.(2018)。随机梯度下降半群和在线主成分分析:性质和扩散近似。数学科学传播,16(3),777-789。doi:·Zbl 1417.60065号
[17] Gardiner,C.(2009)。随机方法(第4版)。柏林:Springer-Verlag·Zbl 1181.60001号
[18] Goodfellow,I.、Bengio,Y.和Courville,A.(2016)。深度学习。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1373.68009号
[19] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2015)。深入研究整流器:在图像网络分类方面超越人类水平的性能。CoRR.abs/1502.01852。
[20] Horn,R.A.和Johnson,C.R.(2012年)。矩阵分析(第二版)。纽约:剑桥大学出版社,
[21] 胡伟(Hu,W.)、李春杰(Li,C.J.)、李丽丽(Li、L.)和刘建国(Liu,J.-G.)(2017)。关于非凸随机梯度下降的扩散逼近。arXiv:1705.07562v2·Zbl 1421.90121号
[22] Ioffe,S.和Szegedy,C.(2015)。批量规范化:通过减少内部协变量偏移来加速深层网络培训。CoRR.abs/1502.03167。
[23] Jastrzȩbski,S.、Kenton,Z.、Arpit,D.、Ballas,N.、Fischer,A.、Bengio,Y.和Storkey,A.(2017)。影响SGD最小值的三个因素。arXiv:1711.04623v3
[24] Javaloyes,J.、Perrin,M.和Politi,A.(2008)。集体原子反冲激光器作为同步过渡。物理。版本E,78,011108。doi:,
[25] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.和Tang,P.T.P.(2016)。关于深度学习的大范围训练:泛化差距和显著极小值。arXiv:1609.04836。
[26] Khalil,香港(2002)。非线性系统(第三版)。新泽西州上马鞍河:普伦蒂斯·霍尔·Zbl 1003.34002号
[27] Kleinberg,R.、Li,Y.和Yuan,Y.(2018)。另一种观点:SGD何时脱离局部极小?arXiv:1802.06175。
[28] Kloeden,P.和Platen,E.(1992年)。随机微分方程的数值解。柏林:Springer-Verlag·Zbl 0752.60043号
[29] LeCun,Y.、Bengio,Y.和Hinton,G.(2015,27)。深度学习。《自然》,521436-444,
[30] Li,Q.,Tai,C.,&Weinan,E.(2018)。随机修正方程和随机梯度算法动力学I:数学基础。arXiv:1811.01558·Zbl 1484.62106号
[31] Lohmiller,W.和Slotine,J.-J.E.(1998)。非线性系统的收缩分析。自动化,34(6),683-696。doi:·Zbl 0934.93034号
[32] Mallat,S.(2016)。了解深卷积网络。《皇家学会哲学学报A:数学、物理和工程科学》,374(2065),20150203。doi:,
[33] Mandt,S.、Hoffman,M.D.和Blei,D.M.(2015)。重温随机梯度下降的连续时间极限。NIPS机器学习优化研讨会。
[34] Mandt,S.、Hoffman,M.D.和Blei,D.M.(2016)。随机梯度算法的变分分析。《第三十三届机器学习国际会议论文集》,第48卷(第354-363页)。
[35] Mandt,S.、Hoffman,M.D.和Blei,D.M.(2017年)。随机梯度下降近似贝叶斯推理。J.马赫。学习。研究,18(1),4873-4907·Zbl 1442.62055号
[36] Miller,M.B.和Bassler,B.L.(2001)。细菌的群体感应。微生物学年度评论,55(1),165-199。doi:,
[37] Neelakantan,A.、Vilnis,L.、Le,Q.V.、Sutskever,I.、Kaiser,L.,Kurach,K.和Martens,J.(2015)。添加梯度噪声可以改进深度网络的学习。arXiv:1511.06807。
[38] Nesterov,Y.(1983年)。一种求解收敛速度为O(1/k2)的凸规划问题的方法。苏维埃数学Doklady,26,367-372。
[39] Nesterov,Y.(2004)。关于凸优化的介绍性讲座。柏林:斯普林格·Zbl 1086.90045号
[40] Pham,Q.、Tabarau,N.和Slotine,J.(2009年)。随机增量稳定性的收缩理论方法。IEEE自动控制汇刊,54(4),816-820。doi:·Zbl 1367.60073号
[41] Poggio,T.、Kawaguchi,K.、Liao,Q.、Miranda,B.、Rosasco,L.、Boix,X.、…Mhaskar,H.(2017)。深度学习理论III:解释非过拟合难题。arXiv:1801.00173。
[42] Polyak,B.和Juditsky,A.(1992年)。通过平均加速随机近似。SIAM控制与优化杂志,30(4),838-855。doi:·Zbl 0762.62022号
[43] Recht,B.,&Ré,C.(2013年1月)。大规模矩阵补全的并行随机梯度算法。数学规划计算,5(2),201-226。doi:·Zbl 1275.90039号
[44] Recht,B.、Re,C.、Wright,S.和Niu,F.(2011年)。Hogwild:一种并行化随机梯度下降的无锁方法。J.Shawe-Taylor、R.S.Zemel、P.L.Bartlett、F.Pereira和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,24(第693-701页)。纽约州红钩市:Curran。
[45] Robbins,H.和Siegmund,D.(1971年)。非负几乎上鞅的收敛定理及其应用。J.S.Rustagi(编辑),《统计学中的优化方法》(第233-257页)。纽约:学术出版社。https://doi.org/10.1016/B978-0-12-604550-5.50015-8 ·兹标0286.60025
[46] Roux,N.L.、Schmidt,M.和Bach,F.R.(2012)。有限训练集的指数收敛率随机梯度法。F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第2663-2671页)。纽约州红钩市:Curran。
[47] Russo,G.和Slotine,J.J.E.(2010年)。配额网络的全球趋同。物理。修订版E,82,041919。doi:,
[48] Sagun,L.、Evci,U.、Guney,V.U.、Dauphin,Y.和Bottou,L.(2017)。过度参数化神经网络Hessian的实证分析。arXiv:1706.04454。doi:,
[49] Schmidt,M.、Le Roux,N.和Bach,F.(2017年)。用随机平均梯度最小化有限和。数学规划,162(1),83-112。doi:·兹比尔1358.90073
[50] Slotine,J.-J.E.(2003)。用于分布式计算和控制的模块化稳定性工具。国际自适应控制和信号处理杂志,17(6),397-416。doi:·Zbl 1044.93004号
[51] Su,W.、Boyd,S.和Candes,E.(2014)。Nesterov加速梯度法建模的微分方程:理论与见解。Z.Ghahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,27(第2510-2518页)。纽约州红钩市:Curran。
[52] Tabarau,N.、Slotine,J.-J.和Pham,Q.-C.(2010年)。同步如何防止噪音。PLOS计算生物学,6(1),1-9。doi:,
[53] Tuckwell,H.C.和Rodriguez,R.(1998年3月1日)。随机Fitzhugh-Nagumo神经元和神经网络的分析和仿真结果。计算神经科学杂志,5(1),91-113。https://doi.org/10.1023/A:1008811814446, ·兹伯利0896.92009
[54] Wang,W.和Slotine,J.J.E.(2005)。耦合非线性振子的部分收缩分析。生物控制论,92(1),38-53。doi:·Zbl 1096.92001号
[55] Wang,W.和Slotine,J.-J.E.(2006)。使用神经振荡器进行快速计算。神经计算,69(16),2320-2326。https://doi.org/10.1016/j.neucom.2005.04.012。 ,
[56] Waters,C.M.和Bassler,B.L.(2005)。群体感应:细菌中的细胞间通讯。《细胞与发育生物学年度评论》,21(1),319-346。doi:,
[57] Wibisono,A.和Wilson,A.C.(2015)。关于优化中的加速方法。arXiv:1509.03616。
[58] Wibisono,A.、Wilson,A.C.和Jordan,M.I.(2016)。优化中加速方法的变分观点。《美国国家科学院院刊》,113(47),E7351-E7358。doi:·Zbl 1404.90098号
[59] Wilson,A.C.、Recht,B.和Jordan,M.I.(2016)。优化中动量方法的Lyapunov分析。arXiv:1611.02635。
[60] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.(2017)。理解深度学习需要重新思考泛化。arXiv:1611.03530。
[61] Zhang,J.、Mokhtari,A.、Sra,S.和Jadbabaie,A.(2018年)。直接Runge-Kutta离散实现了加速。S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett(编辑),《神经信息处理系统的进展》,31(第3904-3913页)。纽约州红钩市:Curran。
[62] Zhang,S.、Choromanska,A.E.和LeCun,Y.(2015)。弹性平均SGD深度学习。C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett(编辑),《神经信息处理系统的进展》,28(第685-693页)。
[63] Zhang,Y.、Saxe,A.M.、Advani,M.S.和Lee,A.A.(2018)。能量熵竞争和随机梯度下降在机器学习中的有效性。分子物理学,116(21-22),3214-3223。doi:,
[64] Zhu,Z.、Wu,J.、Yu,B.、Wu,L.和Ma,J.(2018)。随机梯度下降中的各向异性噪声:其逃离极小值和正则化效应的行为。arXiv:1803.00195。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。