×

随机优化问题中的启发式自适应快速梯度法。 (英语。俄文原件) Zbl 1451.90107号

计算。数学。数学。物理学。 60,第7期,1108-1115(2020)Zh的翻译。维奇尔。Mat.Mat.Fiz公司。60,第7期,1143-1150(2020年)。
摘要:提出了一种快速自适应启发式随机梯度下降方法。结果表明,该算法在实际问题中比目前流行的优化方法具有更高的收敛速度。此外,给出了该方法的证明,并描述了阻碍获得该算法最优估计的困难。

MSC公司:

90立方厘米 随机规划
90摄氏52度 减少梯度类型的方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 于内斯特罗夫。E.,《凸优化导论》(2010),莫斯科:莫斯科。Tsentr Nepreryvnogo Matematicheskogo Obrazovaniya,莫斯科
[2] 古德费罗,I。;Y.本吉奥。;Courville,A.,《深度学习》(2016),马萨诸塞州剑桥:麻省理工学院出版社,马萨诸塞诸塞州坎布里奇·Zbl 1373.68009号
[3] A.Krizhevsky、I.Sutskever和G.Hinton,“深度卷积神经网络的图像网络分类”,《神经信息处理系统进展》(2012),第1097-1105页。
[4] Gasnikov,A.V。;Dvurechensky,体育。;Usmanova,I.N.,“关于快速随机方法的重要性”,Trudy Mosk。法兹-,特克恩。Inst.,8,67-100(2016)
[5] A.V.Gasnikov,《现代数值优化方法:通用梯度下降法》(Mosc.Fiziko-tektechnicheskii Institute,2018)。arXiv:1711.00394
[6] 巴赫,F。;Levy,K.Y.,自适应平滑和噪声的变分不等式的通用算法(2019)
[7] 瓦斯瓦尼,S。;米什金,A。;拉拉吉,I。;施密特,M。;Gidel,G。;Lacoste-Julien,S.,《无痛随机梯度:插值、线搜索和收敛速度》(2019年)
[8] Nocedal,J。;Wright,S.,《数值优化》(2006)·Zbl 1104.65059号
[9] Ward,R。;吴,X。;Bottou,L.,AdaGrad步长:任何初始化(2019年)
[10] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。《学习研究》,12,2121-2159(2011)·Zbl 1280.68164号
[11] Q.Deng、Y.Cheng和G.Lan,“最佳自适应和加速随机梯度下降”,2018年。arXiv:1810.00553。
[12] 利维,K.Y。;Yurtsever,A。;Cevher,V.,在线自适应方法,通用性和加速(2018)
[13] Iusem,A.N。;Jofre,A。;奥利维拉,R.I。;汤普森,P.,随机变分不等式的基于方差的线搜索外梯度方法,SIAM J.Optim。,29, 175-206 (2019) ·Zbl 1415.65145号 ·doi:10.1137/17M1144799
[14] Boucheron,S。;卢戈西,G。;Massart,P.,《集中不等式:独立性的非渐近理论》(2013)·Zbl 1279.60005号
[15] Panchenko,D.,经验过程集中不平等的对称化方法,Annals Probab。,2068-2081(2003年)·邮编:1042.60008 ·doi:10.1214/aop/1068646378
[16] Kingma,D.P。;Ba,J.,Adam:随机优化方法(2015)
[17] M.D.Gupta和T.Huang,“Bregman距离到l1正则逻辑回归”,第19届国际模式识别会议,2008年,第1-4页。
[18] O.Devolder、F.Glineur和Yu。Nesterov,“具有不精确预言的一阶方法:强凸情形”,CORE讨论论文2013/16。2013https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2013_16web.pdf ·Zbl 1317.90196号
[19] Devolder,O。;Glineur,F。;于内斯特罗夫。,具有不精确预言的光滑凸优化的一阶方法,数学。程序。,146, 37-75 (2014) ·Zbl 1317.90196号 ·doi:10.1007/s10107-013-0677-5
[20] O.Devolder,“大规模凸优化一阶方法中的精确性、不精确性和随机性”,博士论文,CORE UCL,2013年。
[21] 李,M。;张,T。;陈,Y。;Smola,A.J.,《用于随机优化的高效迷你背带训练》(2014)
[22] A.Juditsky和A.Nemirovski,“2-光滑赋范空间中向量值鞅的大偏差”,2008年。arXiv公司:0809.0813
[23] Gasnikov,A.V。;Tyurin,A.I.,凸极小化问题的快速梯度下降,用预言机在请求点生成函数的(δ;L)模型,计算。数学。数学。物理。,59, 1085-1097 (2019) ·Zbl 07139606号 ·doi:10.1134/S0965542519070078
[24] 罗伯特·C。;Casella,G.,蒙特卡洛统计方法(2013)
[25] 兰·G。;内米洛夫斯基,A。;Shapiro,A.,镜像下降随机近似方法的验证分析,数学。程序。,134, 425-458 (2012) ·Zbl 1273.90154号 ·doi:10.1007/s10107-011-0442-6
[26] Griewank,A.,“关于自动微分”,数学,程序:最新发展应用。,6, 83-107 (1989) ·Zbl 0696.65015号
[27] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,86,2278-2324(1998)·数字对象标识代码:10.1109/5.726791
[28] A.Krizhevsky,《从微小图像中学习多层特征》,多伦多大学博士论文,2009年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。