奥加尔佐夫。;泰林,A.I。 随机优化问题中的启发式自适应快速梯度法。 (英语。俄文原件) Zbl 1451.90107号 计算。数学。数学。物理学。 60,第7期,1108-1115(2020);Zh的翻译。维奇尔。Mat.Mat.Fiz公司。60,第7期,1143-1150(2020年)。 摘要:提出了一种快速自适应启发式随机梯度下降方法。结果表明,该算法在实际问题中比目前流行的优化方法具有更高的收敛速度。此外,给出了该方法的证明,并描述了阻碍获得该算法最优估计的困难。 引用于1文件 MSC公司: 90立方厘米 随机规划 90摄氏52度 减少梯度类型的方法 关键词:快速梯度下降;随机优化;自适应优化 软件:亚当;阿达格拉德;ImageNet公司;AlexNet公司;CIFAR公司 PDF格式BibTeX公司 XML格式引用 \textit{A.V.Ogal'tsov}和\textit{A.I.Tyurin},计算。数学。数学。物理学。60,第7号,1108--1115(2020;Zbl 1451.90107);Zh的翻译。维奇尔。Mat.Mat.Fiz公司。60,第7号,1143--1150(2020年) 全文: 内政部 arXiv公司 参考文献: [1] 于内斯特罗夫。E.,《凸优化导论》(2010),莫斯科:莫斯科。Tsentr Nepreryvnogo Matematicheskogo Obrazovaniya,莫斯科 [2] 古德费罗,I。;Y.本吉奥。;Courville,A.,《深度学习》(2016),马萨诸塞州剑桥:麻省理工学院出版社,马萨诸塞诸塞州坎布里奇·Zbl 1373.68009号 [3] A.Krizhevsky、I.Sutskever和G.Hinton,“深度卷积神经网络的图像网络分类”,《神经信息处理系统进展》(2012),第1097-1105页。 [4] Gasnikov,A.V。;Dvurechensky,体育。;Usmanova,I.N.,“关于快速随机方法的重要性”,Trudy Mosk。法兹-,特克恩。Inst.,8,67-100(2016) [5] A.V.Gasnikov,《现代数值优化方法:通用梯度下降法》(Mosc.Fiziko-tektechnicheskii Institute,2018)。arXiv:1711.00394 [6] 巴赫,F。;Levy,K.Y.,自适应平滑和噪声的变分不等式的通用算法(2019) [7] 瓦斯瓦尼,S。;米什金,A。;拉拉吉,I。;施密特,M。;Gidel,G。;Lacoste-Julien,S.,《无痛随机梯度:插值、线搜索和收敛速度》(2019年) [8] Nocedal,J。;Wright,S.,《数值优化》(2006)·Zbl 1104.65059号 [9] Ward,R。;吴,X。;Bottou,L.,AdaGrad步长:任何初始化(2019年) [10] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。《学习研究》,12,2121-2159(2011)·Zbl 1280.68164号 [11] Q.Deng、Y.Cheng和G.Lan,“最佳自适应和加速随机梯度下降”,2018年。arXiv:1810.00553。 [12] 利维,K.Y。;Yurtsever,A。;Cevher,V.,在线自适应方法,通用性和加速(2018) [13] Iusem,A.N。;Jofre,A。;奥利维拉,R.I。;汤普森,P.,随机变分不等式的基于方差的线搜索外梯度方法,SIAM J.Optim。,29, 175-206 (2019) ·Zbl 1415.65145号 ·doi:10.1137/17M1144799 [14] Boucheron,S。;卢戈西,G。;Massart,P.,《集中不等式:独立性的非渐近理论》(2013)·Zbl 1279.60005号 [15] Panchenko,D.,经验过程集中不平等的对称化方法,Annals Probab。,2068-2081(2003年)·邮编:1042.60008 ·doi:10.1214/aop/1068646378 [16] Kingma,D.P。;Ba,J.,Adam:随机优化方法(2015) [17] M.D.Gupta和T.Huang,“Bregman距离到l1正则逻辑回归”,第19届国际模式识别会议,2008年,第1-4页。 [18] O.Devolder、F.Glineur和Yu。Nesterov,“具有不精确预言的一阶方法:强凸情形”,CORE讨论论文2013/16。2013https://www.uclouvain.be/cps/ucl/doc/core/documents/coredp2013_16web.pdf ·Zbl 1317.90196号 [19] Devolder,O。;Glineur,F。;于内斯特罗夫。,具有不精确预言的光滑凸优化的一阶方法,数学。程序。,146, 37-75 (2014) ·Zbl 1317.90196号 ·doi:10.1007/s10107-013-0677-5 [20] O.Devolder,“大规模凸优化一阶方法中的精确性、不精确性和随机性”,博士论文,CORE UCL,2013年。 [21] 李,M。;张,T。;陈,Y。;Smola,A.J.,《用于随机优化的高效迷你背带训练》(2014) [22] A.Juditsky和A.Nemirovski,“2-光滑赋范空间中向量值鞅的大偏差”,2008年。arXiv公司:0809.0813 [23] Gasnikov,A.V。;Tyurin,A.I.,凸极小化问题的快速梯度下降,用预言机在请求点生成函数的(δ;L)模型,计算。数学。数学。物理。,59, 1085-1097 (2019) ·Zbl 07139606号 ·doi:10.1134/S0965542519070078 [24] 罗伯特·C。;Casella,G.,蒙特卡洛统计方法(2013) [25] 兰·G。;内米洛夫斯基,A。;Shapiro,A.,镜像下降随机近似方法的验证分析,数学。程序。,134, 425-458 (2012) ·Zbl 1273.90154号 ·doi:10.1007/s10107-011-0442-6 [26] Griewank,A.,“关于自动微分”,数学,程序:最新发展应用。,6, 83-107 (1989) ·Zbl 0696.65015号 [27] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,86,2278-2324(1998)·数字对象标识代码:10.1109/5.726791 [28] A.Krizhevsky,《从微小图像中学习多层特征》,多伦多大学博士论文,2009年。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。