×

深度学习的最大原则算法。 (英语) Zbl 1467.68156号

总结:探索深度学习的连续动态系统方法,以设计训练算法的替代框架。训练被重新定义为一个控制问题,这使我们能够使用庞特里亚金最大值原理(PMP)在连续时间内制定必要的优化条件。然后,使用对逐次逼近方法的修改来求解PMP,从而产生用于深度学习的替代训练算法。这种方法的优点是可以建立严格的误差估计和收敛结果。我们还表明,它可以避免基于梯度的方法的一些缺陷,例如在鞍点附近的平坦地形上收敛缓慢。此外,我们证明,如果可以有效地实现哈密顿最大化,那么它可以获得良好的迭代初始收敛速度,这一步仍需改进。总的来说,该方法为解决与深度学习相关的问题开辟了新途径,例如陷入慢流形和基于梯度的方法对离散可训练变量的不适用性。

MSC公司:

68T07型 人工神经网络与深度学习
49N90型 最优控制和微分对策的应用
62M45型 神经网络及从随机过程推断的相关方法
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 弗拉基米尔·阿列克桑德罗夫。关于具有两个坐标的线性系统中扰动的积累。Vestnik MGU,1968年3月。
[2] Marcin Andrychowicz、Misha Denil、Sergio Gomez、Matthew W Hoffman、David Pfau、Tom Schaul和Nando de Freitas。通过梯度下降学习。《神经信息处理系统进展》,第3981–3989页,2016年。
[3] Michael Athans和Peter L Falb。最优控制:理论及其应用简介。Courier Corporation,2013年。
[4] Atilim G Baydin、Barak A Pearlmutter、Alexey A Radul和Jeffrey M Siskind。机器学习中的自动微分:一项调查。arXiv预印本arXiv:150205.7672015。
[5] Mokhtar S Bazaraa、Hanif D Sherali和Chitharanjan M Shetty。非线性规划:理论和算法。John Wiley&Sons,2013年·Zbl 1140.90040号
[6] 理查德·贝尔曼(Richard Bellman)。动态编程。Courier Corporation,2013年。
[7] 约舒亚·本吉奥(Yoshua Bengio)。学习人工智能的深层架构。机器学习的基础和趋势,2(1):1–1272009·Zbl 1192.68503号
[8] 迪米特里·贝尔塞卡斯。动态编程和优化控制,第1卷。雅典娜科学公司,马萨诸塞州贝尔蒙特,1995年·Zbl 0904.90170号
[9] 迪米特里·贝尔塞卡斯。非线性规划。雅典娜科学贝尔蒙特,1999年·兹比尔1015.90077
[10] 约翰·贝茨。轨迹优化数值方法综述。制导控制与动力学杂志,21(2):193-2071998·Zbl 1158.49303号
[11] 弗拉基米尔·格里戈·埃维奇(Vladimir Grigor’evich Boltyanskii)、Revaz Valer'yanovich Gamkrelidze和Lev Semenovich Pontryagin。最优过程理论。i.最大值原理。技术报告,TRW SPACE TECHNOLOGY LABS LOS ANGELES CALIF,1960年。
[12] 莱昂博图。具有随机梯度下降的大规模机器学习。2010年COMPSTAT会议记录,第177-186页。施普林格,2010年·Zbl 1436.68293号
[13] 阿尔贝托·布雷桑和贝内德托·皮科利。数学控制理论导论。AIMS应用数学系列,费城,2007年·Zbl 1127.93002号
[14] 亚瑟·厄尔·布赖森。应用最优控制:优化、估计和控制。CRC出版社,1975年。
[15] 安纳托利·布特科夫斯基。采样数据控制系统最优性的充要条件。Avtoma。i Telemekh,24(8):1056–10641963年。
[16] Bo Chang、Lili Meng、Eldad Haber、Lars Ruthotto、David Begert和Elliot Holtham。任意深度剩余神经网络的可逆结构。arXiv预印arXiv:1709.036982017。26
[17] 费利克斯·L·切尔诺斯科(Felix L Chernousko)和阿列克谢·柳布欣(Alexey A Lyubushin)。求解最优控制问题的逐次逼近方法。最优控制应用与方法,3(2):101-1141982·Zbl 0485.49003号
[18] 弗朗西斯·克拉克(Francis Clarke),最佳控制中的最大值原理。控制与控制论,34(3):7092005·Zbl 1167.49311号
[19] 马蒂厄·库巴里奥(Matthieu Courbariaux)、约书亚·本吉奥(Yoshua Bengio)和珍妮·皮埃尔·戴维(Jean-Pierre David)。二进制连接:在传播过程中使用二进制权重训练深层神经网络。《神经信息处理系统进展》,第3123-3131页,2015年。
[20] 马蒂厄·库巴里奥(Matthieu Courbariaux)、伊泰·胡巴拉(Itay Hubara)、丹尼尔·苏德利(Daniel Soudry)、兰·埃尔亚尼夫(Ran El-Yaniv)和约舒亚·本吉奥(Yoshua Bengio)。二值化神经网络:训练深度神经网络,权重和激活限制为+1或-1。arXiv预印arXiv:1602.02832016。
[21] Wojciech M Czarnecki、Grzegorz´Swirszcz、Max Jaderberg、Simon Osindero、Oriol Vinyals和Koray Kavukcuoglu。了解合成梯度和解耦神经接口。arXiv预印arXiv:1703.005222017。
[22] J.Deng、W.Dong、R.Socher、L.-J.Li、K.Li和L.Fei-Fei。ImageNet:一个大规模的层次化图像数据库。2009年CVPR09中。
[23] 约翰·杜奇(John Duchi)、伊拉德·哈赞(Elad Hazan)和约拉姆·辛格(Yoram Singer)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(7月):2121–21592011·兹比尔1280.68164
[24] 渭南E.关于通过动态系统进行机器学习的建议。数学与统计传播,5(1):2017年1月11日·Zbl 1380.37154号
[25] 托马斯·弗雷里克斯、托马斯·莫伦霍夫、迈克尔·默勒和丹尼尔·克雷默斯。近距离反向传播。arXiv预印arXiv:1706.046382017。
[26] J威拉德·吉布斯。统计力学的基本原理。Courier Corporation,2014年·Zbl 1200.00032号
[27] Ian Goodfellow、Yoshua Bengio和Aaron Courville。深度学习。麻省理工学院出版社,2016年·Zbl 1373.68009号
[28] Eldad Haber和Lars Ruthotto。深层神经网络的稳定架构。arXiv预印arXiv:1705.033412017·Zbl 1426.68236号
[29] Richard HR Hahnlosser、Rahul Sarpeshkar、Misha A Mahowald、Rodney J Douglas和H Sebastian Seung。数字选择和模拟放大共存于皮质酮激励硅电路中。《自然》,405(6789):9472000。
[30] 休伯特·哈尔金。由非线性差分方程描述的系统的庞特里亚金型最大值原理。SIAM控制杂志,4(1):90–1111966年·Zbl 0152.09301号
[31] 何开明、张湘玉、任少清、孙建军。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议记录》,第770-778页,2016年。27
[32] 马格努斯·赫斯特内斯。乘数法和梯度法。优化理论与应用杂志,4(5):303–3201969年·Zbl 0174.20705号
[33] R Jackson和F Horn。关于蓬特里亚金最大值原理的离散类比。国际控制杂志,1(4):389–3951965。
[34] Max Jaderberg、Wojciech M Czarnecki、Simon Osindero、Oriol Vinyals、Alex Graves和Koray Kavukcuoglu。使用合成梯度解耦神经接口。arXiv预印arXiv:1608.053432016。
[35] 罗伯特·詹里希(Robert I Jennrich)。非线性最小二乘估计量的渐近性质。《数理统计年鉴》,40(2):633–6431969年·Zbl 0193.47201号
[36] Rie Johnson和Tong Zhang。使用预测方差减少加速随机梯度下降。《神经信息处理系统进展》,第315–323页,2013年。
[37] 亨利·J·凯利。最优飞行路径的梯度理论。《阿尔斯杂志》,30(10):947-9541960·Zbl 0096.42002号
[38] Diederik Kingma和Jimmy Ba.Adam:一种随机优化方法。arXiv预印arXiv:1412.69802014。
[39] Ivan A Krylov和Felix L Chernousko。关于最优控制问题的逐次逼近解法。J.公司。马塞姆。和数学物理,2(6),1962年。
[40] 延乐村。反向传播的理论框架。《康涅狄格州模特暑期学校》,第1卷,第21-28页,1988年。
[41] 延乐村。手写数字的MNIST数据库。http://yann。勒贡。com/exdb/mnist/,1998年。
[42] Yann LeCun和Yoshua Bengio。图像、语音和时间序列的卷积网络。大脑理论和神经网络手册,3361(10):1995,1995。
[43] Yann LeCun、L´eon Bottou、Yoshua Bengio和Patrick Haffner。基于梯度的学习应用于文档识别。IEEE会议记录,86(11):2278–23241998。
[44] Yann LeCun、Yoshua Bengio和Geoffrey Hinton。深度学习。《自然》,521(7553):436–4442015年。
[45] Kwang Y Lee和Mohamed A El-Sharkawi。现代启发式优化技术:电力系统理论与应用,第39卷。John Wiley&Sons,2008年。
[46] Li Qianxiao,Cheng Tai,and Weinan E.随机修正方程和自适应随机梯度算法。在2017年国际机器学习会议上,第2101–2110页。
[47] 丹尼尔·利伯松(Daniel Liberzon)。变分法和最优控制理论:简明介绍。普林斯顿大学出版社,2012年。28 ·Zbl 1239.49001号
[48] 刘东川和豪尔赫·诺塞达尔。关于用于大规模优化的有限内存BFGS方法。数学规划,45(1):503–5281989·Zbl 0696.90048号
[49] 亚历克谢·柳布欣。改进了求解最优控制问题的逐次逼近方法。苏联计算数学和数学物理,22(1):29-341982·Zbl 0504.49017号
[50] 兹比格尼夫·纳霍斯基(Zbigniew Nahorski)、汉斯·拉文(Hans F Ravn)和雷内·维克托·瓦尔基·维达尔(Rene’e Victor Valqui Vidal)。离散时间最大值原理:一项调查和一些新的结果。《国际控制杂志》,40(3):533–5541984·Zbl 0549.49021号
[51] 尼古拉·波戈达耶夫。连续性方程的最优控制。非线性微分方程及其应用,23(2):212016·Zbl 1337.49007号
[52] 列夫·斯蓬特里亚金。最优化过程的数学理论。CRC出版社,1987年。
[53] 阿尼尔·拉奥。最优控制数值方法综述。《宇宙航行科学进展》,135(1):497–5282009。
[54] 汉内斯·里斯肯(Hannes Risken)。福克普朗克方程。在福克-普朗克方程中,第63-95页。施普林格,1996年·Zbl 0866.60071号
[55] 赫伯特·罗宾斯和萨顿·蒙罗。一种随机近似方法。《数理统计年鉴》,第400-407页,1951年·Zbl 0054.05901号
[56] 桑福德·M·罗伯茨和杰罗姆·S·希普曼。两点边值问题:打靶方法。SIAM版本,16(2):2652661972·Zbl 0239.65061号
[57] 苏维克·罗伊和阿尔菲奥·波茨。一类刘维尔控制问题的数值研究。《科学计算杂志》,73:1782017年·Zbl 1386.35409号
[58] 列夫·罗佐尔(Lev I Rozonoer)。最优系统理论中L.S.Pontryagin的最大值原理。自动化和远程控制,20(10):11995年11月。
[59] Jüurgen Schmidhuber。神经网络中的深度学习:概述。神经网络,61:85–117,2015年。
[60] 伊利亚·萨茨克弗(Ilya Sutskever)、詹姆斯·马滕斯(James Martens)、乔治·达尔(George Dahl)和杰弗里·辛顿(Geoffrey Hinton)。关于深度学习中初始化和动量的重要性。2013年,在机器学习国际会议上,第1139–1147页。
[61] 加文·泰勒、瑞安·伯迈斯特、郑旭、巴拉特·辛格、安基特·帕特尔和汤姆·戈尔茨坦。无梯度训练神经网络:一种可扩展的ADMM方法。在国际机器学习会议上,第2722–2731页,2016年。
[62] 韩晓、卡西夫·拉苏尔和罗兰·沃尔格拉夫。Fashion-MNIST:用于基准机器学习算法的新型图像数据集。arXiv预印arXiv:1708.077472017。
[63] 马修·D·泽勒。Adadelta:一种自适应学习速率方法。arXiv预印本arXiv:1212.57012012。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。