×

兹马思-数学第一资源

利用线搜索法,通过定位随机非负相关梯度投影点,自适应地求解学习速率。(英语) Zbl 1465.90075
摘要:随机神经网络训练中的学习率目前是在训练前预先决定的,使用昂贵的人工或自动迭代调整。使用线搜索自适应地解决学习率的尝试已经被证明是计算上的要求。通过考虑小批量子抽样(MBSS)来降低计算成本带来了挑战,因为批次之间的信息存在显著差异,这些差异可能表现为损失函数中的不连续性,这取决于MBSS方法。本研究提出一个稳健的方法来自适应地解决学习速率问题动态MBSS损失函数。这是通过寻找符号沿方向导数从负到正的变化,最终收敛到一个随机的非负相关梯度投影点来实现的。通过大量的研究,我们证明了纯梯度线搜索(GOLS)可以自适应地解决学习速率问题,相对于最小化的线搜索提高了收敛性能,忽略了某些局部极小值,并且消除了代价高昂的超参数。我们还指出,在计算上,较差的搜索方向可能会因沿下降方向超出最优值而受益,这可以通过考虑改进的搜索方向来解决。已经证明GOLS是一种可靠的线搜索,允许在静止的动态MBSS。
理学硕士:
90C26型 非凸规划,全局优化
90度15度 随机规划
49M05型 基于必要条件的数值方法
6505公里 数值规划方法
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] Anguita,D.,Ghio,A.,Oneto,L.,Parra,X.,Reyes Ortiz,J.L.:智能手机上使用多类硬件友好支持向量机的人类活动识别。In:计算机科学课堂讲稿(包括人工智能课堂讲稿和生物信息学课堂讲稿),第7657卷LNCS,第216-223页(2012年)。doi:10.1007/978-3-642-35395-6_30
[2] 阿尼特斯库,M.,《具有二次增长条件的退化非线性规划》,暹罗J.Optim。,1011116-1135(2000年)·Zbl 0994.65073
[3] Arora,J.,优化设计导论(2011),剑桥:学术出版社,剑桥
[4] Balles,L.,Hennig,P.:解剖亚当:随机梯度的符号、大小和方差,第1卷,第1-17页(2018年)。arXiv:1705.07774v2[cs.LG]
[5] Bergstra,J.,Bardenet,R.,Bengio,Y.,Kégl,B.:超参数优化算法。In:NIPS 2011,第2546-2554页(2011年)。arXiv:1206.2944秒
[6] 柏格斯特拉,J。;《超参数优化随机搜索》,J.Mach。学习。第13号决议,第281-305页(2012年)·兹布1283.68282
[7] Bertsekas,DP,麻省理工学院:凸优化算法(2015),贝尔蒙特:雅典娜科学,贝尔蒙特
[八] 毕晓普,CM,模式识别和机器学习(2006),柏林:斯普林格,柏林·Zbl 1107.68072
[9] Bollapragada,R.,Byrd,R.,Nocedal,J.:随机优化的自适应抽样策略,第1-32页(2017年)。arXiv:1710.11258·Zbl 1461.65131号
[10] Bottou,L.:随机梯度下降的大规模机器学习。在:Compstat2010,主旨,邀请和贡献论文,第19卷,第177-186页(2010年)。doi:10.1007/978-3-7908-2604-3-16·Zbl 1436.68293
[11] 伯德,右侧;总经理Chin;诺塞达尔,J。;吴勇,机器学习优化方法中的样本量选择,数学。程序。,134,1127-155(2012年)·Zbl 1252.49044
[12] Chen,T.,Sun,Y.,Shi,Y.,Hong,L.,《基于神经网络的协同过滤的抽样策略》,第1-14页(2017年)。arXiv:1706.07881[cs.LG]
[13] Choromanska,A.,Henaff,M.,Mathieu,M.,Arous,G.B.,LeCun,Y.:多层网络的损耗面。In:AISTATS 2015,第38卷,第192-204页(2015)
[14] 多芬。;帕斯卡努,R。;古尔切尔,C。;赵,K。;甘古里,S。;Bengio,Y.,高维非凸优化中鞍点问题的识别和攻击,ICLR,2014,1-9(2014)
[15] 戴维斯,C.,《舒尔产品操作规范》,编号。数学。,4343-344(1962年)·Zbl 0111.01504
[16] 杜奇,J。;哈桑,E。;《在线学习与随机优化的自适应次梯度方法》,J.Mach。学习。2011年7月12日,2121-2159(2011年)·Zbl 1280.68164
[17] Engelbrecht,AP,《计算群智能基础》(2005),霍博肯:Wiley,Hoboken
[18] Fisher,RA,《分类学问题中多重测量的使用》,Ann。尤金。,179-188年(1936年)
[19] 牙鲆,CA;柏林百科全书,2009年,柏林百科全书·Zbl 1156.90001
[20] Friedlander,M.P.,Schmidt,M.:数据拟合的混合确定性随机方法,第1-26页(2011年)。doi:10.1137/110830629。arXiv:1104.2373[碳钢长度]
[21] 龚,P.,叶,J.:无强凸性的方差约化随机梯度的线性收敛性(2014)。arXiv:1406.1102
[22] 古德费罗,IJ;葡萄酒,哦。;Saxe,AM,定性描述神经网络优化问题,ICLR,2015,1-11(2015)
[23] Jaderberg,M.,Dalibard,V.,Osindero,S.,Czarnecki,W.M.,Donahue,J.,Razavi,A.,Vinyals,O.,Green,T.,Dunning,I.,Simonyan,K.,Fernando,C.,Kavukcuoglu,K.:基于人群的神经网络培训,第1-13页(2017年)。arXiv:1711.09846
[24] 约翰逊,B。;塔提希,R。;Xie,Z.,《使用地理加权变量进行图像分类》,Remote Sens.Lett。,3491-499(2012年)
[25] 约翰逊,文学学士;塔提希,R。;Hoan,NT,一种混合泛沙化方法和基于多尺度对象的图像分析,用于绘制患病松树和栎树,国际遥感杂志,34,20,6969-6982(2013)
[26] Karimi,H.,Nutini,J.,Schmidt,M.:Polyak-Łojasiewicz条件下梯度和近端梯度方法的线性收敛性。在:ECML-PKDD:欧洲机器学习和数据库知识发现联合会议,第9851卷,第795-811页。施普林格,查姆(2016)。doi:10.1007/978-3-319-46128-1_50
[27] 金马,DP;Ba,J.,Adam:随机优化方法,ICLR,2015,1-15(2015)
[28] Kingma,D.P.,Welling,M.:自动编码变分贝叶斯,第1-14页(2013年)。doi:10.1051/0004-6361/201527329。arXiv:1312.6114v10·Zbl 1431.68002
[29] 克里兹夫斯基,A。;Hinton,GE,Learning Multiple Layers of Features from Tiny Images(2009),多伦多:多伦多大学,多伦多
[30] 莱昆,Y。;洛城博图。;本吉奥,Y。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,86,11,2278-2324(1998)
[31] Li,M.,Zhang,T.,Chen,Y.,Smola,A.J.:随机优化的有效小批量训练。In:《第20届ACM SIGGDD知识发现与数据挖掘国际会议论文集》,第1-10页(2014年)。doi:10.1145/2623330.2623612
[32] 刘杰。;SJ赖特;Ré,C。;比托夫,V。;《异步并行随机坐标下降算法》,J.Mach。学习。第16285-322号决议(2015年)·Zbl 1337.68286
[33] 卢卡斯,DD;克莱恩,R。;坦纳希尔,J。;伊万诺娃,D。;布兰登,S。;多姆扬西奇,D。;Zhang,Y.,气候模型中参数诱导模拟碰撞的失效分析,Geosci。模型开发,6,4,1157-1171(2013)
[34] 罗志强;曾国平,可行下降法的误差界与收敛性分析:一般方法,人工神经网络。操作。第46-47、157-178号决议(1993年)·Zbl 0793.90076
[35] 马瑟里希,M。;Hennig,P.,随机优化的概率线搜索,J.Mach。学习。第18、1-59页(2017年)·Zbl 1441.90110
[36] 曼苏里,K。;林斯特德,T。;巴拉比奥,D。;托德斯基尼,R。;Consonni,V.,化学品生物降解性定量结构-活性关系模型,化学杂志。Inf.型号。,534867-878(2013年)
[37] Martens,J.,通过Hessian自由优化进行的深度学习,ICML,2010,1-6(2010)
[38] Marwala,T.,《使用遗传编程对神经网络进行贝叶斯训练》,模式识别。利特。,第28、12、1452-1458页(2007年)
[39] 蒙大拿,D.J.,戴维斯,L.:使用遗传算法训练前向神经网络(1989)·Zbl 0709.68060
[40] 美国塔斯霍恩鲍鱼种群。一、 产于巴斯海峡北部海岸和岛屿的黑唇鲍鱼。技术报告,海洋渔业司(1994年)
[41] Nesterov,Y.,凸问题的原始-对偶次梯度方法,数学。程序。爵士。B、 120221-259(2009年)·Zbl 1191.90038
[42] 帕施克,F.,拜耳,C.,巴托,M.,Mönks,U.,Dicks,A.,Enge Rosenblatt,O.,Lohweg,V.:Sensorlose Zustandsüberwachung an synchron。在:会议:23。计算智能研讨会(VDI/VDE Gesellschaft Mess-und Automatisiereungstechnik(GMA))。多特蒙德(2013)
[43] Prechelt,L.:PROBEN1-一组神经网络基准问题和基准规则(技术报告21-94)。卡尔斯鲁厄大学技术报告(1994年)
[44] 皮托奇。组织:Pythorch。https://pytorch.org/(2019年)。版本:1.0
[45] 训练集批量大小对不同资料集之卷积神经网路效能之影响,资讯科技。管理。科学。,20、1、20-24(2017年)
[46] 罗宾斯,H。;Monro,S.,随机逼近方法,人工神经网络。数学。Stat.,22,3400-407(1951年)·Zbl 0054.05901
[47] Ruder,S.:梯度下降优化算法概述,第1-14页(2016年)。doi:10.1111/j.0006-341X。1999.00591。x、 arXiv:1609.04747v2[cs.LG],
[48] Saxe,A.M.,McClelland,J.L.,Ganguli,S.:深度线性神经网络中学习非线性动力学的精确解,第1-22页(2013年)。更正:1312.6120
[49] 肖尔,新西兰,不可微函数的最小化方法(1985),柏林:斯普林格,柏林·Zbl 0561.90058
[50] Shor,N.Z.:次梯度法。不可微函数的最小化方法,第22-47页。柏林斯普林格(1985)
[51] Snoek,J.,Larochelle,H.,Adams,R.:机器学习算法的实用贝叶斯优化。In:NIPS,第1-9页(2012年)。arXiv:1206.2944秒·Zbl 1433.68379
[52] 斯尼曼,JA;威尔克,DN,实用数学优化。Springer Optimization and Its Applications(2018),查姆:斯普林格,查姆·Zbl 1401.90007号
[53] 唐,F。;刘X,结构初步设计中人工神经网络训练的样本选择,清华理工大学。技术。,10233-239(2005年)
[54] 《克莱夫方向分析:音乐技术的教育和创造性应用的新舞台》,J.《音乐技术》。教育。,2011年第4、1、27-46页
[55] Werbos,PJ,《反向传播的根源:从有序导数到神经网络和政治预测》(1994),纽约,纽约:威利,纽约,纽约
[56] 威尔克,DN;角,S。;斯尼曼,JA;避免局部最优,无约束最优化方法。《工程学》,第14期,第275-304页(2013年)·Zbl 1294.65071
[57] 是的,IC;李建华,信用卡客户违约概率预测准确性的数据挖掘技术比较,专家系统。申请。,3622473-2480(2009年)
[58] Zhang,C.,Öztireli,C.,Mandt,S.,Salvi,G.:使用排斥点过程的主动小批量抽样(2018年)。ArXiv:1804.02772
[59] Zhang,H.,Yin,W.:凸最小化的梯度方法:较弱条件下的更好速率。ArXiv电子印刷品(2013)
[60] Ziȩba,M。;南卡罗来纳州托姆查克;Tomczak,JM,Ensement boosted trees with synthetic features generation应用于破产预测,专家系统。申请。,58,93-101(2016年)
[61] Zuo,X.,Chintala,S.:基本VAE示例。https://github.com/pytorch/examples/tree/master/vae(2018年)。2018年5月7日访问
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。