李倩晓;陈龙;Tai,Cheng先生;E、 渭南 深度学习的最大原则算法。 (英语) Zbl 1467.68156号 J.马赫。学习。物件。 18(2017-2018),论文编号165,29 p.(2018). 总结:探索深度学习的连续动态系统方法,以设计训练算法的替代框架。训练被重新定义为一个控制问题,这使我们能够使用庞特里亚金最大值原理(PMP)在连续时间内制定必要的优化条件。然后,使用对逐次逼近方法的修改来求解PMP,从而产生用于深度学习的替代训练算法。这种方法的优点是可以建立严格的误差估计和收敛结果。我们还表明,它可以避免基于梯度的方法的一些缺陷,例如在鞍点附近的平坦地形上收敛缓慢。此外,我们证明,如果可以有效地实现哈密顿最大化,那么它可以获得良好的迭代初始收敛速度,这一步仍需改进。总的来说,该方法为解决与深度学习相关的问题开辟了新途径,例如陷入慢流形和基于梯度的方法对离散可训练变量的不适用性。 引用于1审查引用于42文件 MSC公司: 68T07型 人工神经网络与深度学习 49N90型 最优控制和微分对策的应用 62M45型 神经网络及从随机过程推断的相关方法 关键词:深度学习;最优控制;蓬特里亚金最大值原理;逐次逼近法 软件:时尚-MNIST;二进制网络;二进制连接;DiffSharp(差异锐化);MNIST公司;阿达格拉德;亚当;ImageNet公司;L-BFGS公司 PDF格式BibTeX公司 XML格式引用 \textit{Q.Li}等人,J.Mach。学习。第18号决议,第165号论文,29页(2018年;Zbl 1467.68156) 全文: arXiv公司 链接 参考文献: [1] 弗拉基米尔·阿列克桑德罗夫。关于具有两个坐标的线性系统中扰动的积累。Vestnik MGU,1968年3月。 [2] Marcin Andrychowicz、Misha Denil、Sergio Gomez、Matthew W Hoffman、David Pfau、Tom Schaul和Nando de Freitas。通过梯度下降学习。《神经信息处理系统进展》,第3981–3989页,2016年。 [3] Michael Athans和Peter L Falb。最优控制:理论及其应用简介。Courier Corporation,2013年。 [4] Atilim G Baydin、Barak A Pearlmutter、Alexey A Radul和Jeffrey M Siskind。机器学习中的自动微分:一项调查。arXiv预印本arXiv:150205.7672015。 [5] Mokhtar S Bazaraa、Hanif D Sherali和Chitharanjan M Shetty。非线性规划:理论和算法。John Wiley&Sons,2013年·Zbl 1140.90040号 [6] 理查德·贝尔曼(Richard Bellman)。动态编程。Courier Corporation,2013年。 [7] 约舒亚·本吉奥(Yoshua Bengio)。学习人工智能的深层架构。机器学习的基础和趋势,2(1):1–1272009·Zbl 1192.68503号 [8] 迪米特里·贝尔塞卡斯。动态编程和优化控制,第1卷。雅典娜科学公司,马萨诸塞州贝尔蒙特,1995年·Zbl 0904.90170号 [9] 迪米特里·贝尔塞卡斯。非线性规划。雅典娜科学贝尔蒙特,1999年·兹比尔1015.90077 [10] 约翰·贝茨。轨迹优化数值方法综述。制导控制与动力学杂志,21(2):193-2071998·Zbl 1158.49303号 [11] 弗拉基米尔·格里戈·埃维奇(Vladimir Grigor’evich Boltyanskii)、Revaz Valer'yanovich Gamkrelidze和Lev Semenovich Pontryagin。最优过程理论。i.最大值原理。技术报告,TRW SPACE TECHNOLOGY LABS LOS ANGELES CALIF,1960年。 [12] 莱昂博图。具有随机梯度下降的大规模机器学习。2010年COMPSTAT会议记录,第177-186页。施普林格,2010年·Zbl 1436.68293号 [13] 阿尔贝托·布雷桑和贝内德托·皮科利。数学控制理论导论。AIMS应用数学系列,费城,2007年·Zbl 1127.93002号 [14] 亚瑟·厄尔·布赖森。应用最优控制:优化、估计和控制。CRC出版社,1975年。 [15] 安纳托利·布特科夫斯基。采样数据控制系统最优性的充要条件。Avtoma。i Telemekh,24(8):1056–10641963年。 [16] Bo Chang、Lili Meng、Eldad Haber、Lars Ruthotto、David Begert和Elliot Holtham。任意深度剩余神经网络的可逆结构。arXiv预印arXiv:1709.036982017。26 [17] 费利克斯·L·切尔诺斯科(Felix L Chernousko)和阿列克谢·柳布欣(Alexey A Lyubushin)。求解最优控制问题的逐次逼近方法。最优控制应用与方法,3(2):101-1141982·Zbl 0485.49003号 [18] 弗朗西斯·克拉克(Francis Clarke),最佳控制中的最大值原理。控制与控制论,34(3):7092005·Zbl 1167.49311号 [19] 马蒂厄·库巴里奥(Matthieu Courbariaux)、约书亚·本吉奥(Yoshua Bengio)和珍妮·皮埃尔·戴维(Jean-Pierre David)。二进制连接:在传播过程中使用二进制权重训练深层神经网络。《神经信息处理系统进展》,第3123-3131页,2015年。 [20] 马蒂厄·库巴里奥(Matthieu Courbariaux)、伊泰·胡巴拉(Itay Hubara)、丹尼尔·苏德利(Daniel Soudry)、兰·埃尔亚尼夫(Ran El-Yaniv)和约舒亚·本吉奥(Yoshua Bengio)。二值化神经网络:训练深度神经网络,权重和激活限制为+1或-1。arXiv预印arXiv:1602.02832016。 [21] Wojciech M Czarnecki、Grzegorz´Swirszcz、Max Jaderberg、Simon Osindero、Oriol Vinyals和Koray Kavukcuoglu。了解合成梯度和解耦神经接口。arXiv预印arXiv:1703.005222017。 [22] J.Deng、W.Dong、R.Socher、L.-J.Li、K.Li和L.Fei-Fei。ImageNet:一个大规模的层次化图像数据库。2009年CVPR09中。 [23] 约翰·杜奇(John Duchi)、伊拉德·哈赞(Elad Hazan)和约拉姆·辛格(Yoram Singer)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(7月):2121–21592011·兹比尔1280.68164 [24] 渭南E.关于通过动态系统进行机器学习的建议。数学与统计传播,5(1):2017年1月11日·Zbl 1380.37154号 [25] 托马斯·弗雷里克斯、托马斯·莫伦霍夫、迈克尔·默勒和丹尼尔·克雷默斯。近距离反向传播。arXiv预印arXiv:1706.046382017。 [26] J威拉德·吉布斯。统计力学的基本原理。Courier Corporation,2014年·Zbl 1200.00032号 [27] Ian Goodfellow、Yoshua Bengio和Aaron Courville。深度学习。麻省理工学院出版社,2016年·Zbl 1373.68009号 [28] Eldad Haber和Lars Ruthotto。深层神经网络的稳定架构。arXiv预印arXiv:1705.033412017·Zbl 1426.68236号 [29] Richard HR Hahnlosser、Rahul Sarpeshkar、Misha A Mahowald、Rodney J Douglas和H Sebastian Seung。数字选择和模拟放大共存于皮质酮激励硅电路中。《自然》,405(6789):9472000。 [30] 休伯特·哈尔金。由非线性差分方程描述的系统的庞特里亚金型最大值原理。SIAM控制杂志,4(1):90–1111966年·Zbl 0152.09301号 [31] 何开明、张湘玉、任少清、孙建军。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议记录》,第770-778页,2016年。27 [32] 马格努斯·赫斯特内斯。乘数法和梯度法。优化理论与应用杂志,4(5):303–3201969年·Zbl 0174.20705号 [33] R Jackson和F Horn。关于蓬特里亚金最大值原理的离散类比。国际控制杂志,1(4):389–3951965。 [34] Max Jaderberg、Wojciech M Czarnecki、Simon Osindero、Oriol Vinyals、Alex Graves和Koray Kavukcuoglu。使用合成梯度解耦神经接口。arXiv预印arXiv:1608.053432016。 [35] 罗伯特·詹里希(Robert I Jennrich)。非线性最小二乘估计量的渐近性质。《数理统计年鉴》,40(2):633–6431969年·Zbl 0193.47201号 [36] Rie Johnson和Tong Zhang。使用预测方差减少加速随机梯度下降。《神经信息处理系统进展》,第315–323页,2013年。 [37] 亨利·J·凯利。最优飞行路径的梯度理论。《阿尔斯杂志》,30(10):947-9541960·Zbl 0096.42002号 [38] Diederik Kingma和Jimmy Ba.Adam:一种随机优化方法。arXiv预印arXiv:1412.69802014。 [39] Ivan A Krylov和Felix L Chernousko。关于最优控制问题的逐次逼近解法。J.公司。马塞姆。和数学物理,2(6),1962年。 [40] 延乐村。反向传播的理论框架。《康涅狄格州模特暑期学校》,第1卷,第21-28页,1988年。 [41] 延乐村。手写数字的MNIST数据库。http://yann。勒贡。com/exdb/mnist/,1998年。 [42] Yann LeCun和Yoshua Bengio。图像、语音和时间序列的卷积网络。大脑理论和神经网络手册,3361(10):1995,1995。 [43] Yann LeCun、L´eon Bottou、Yoshua Bengio和Patrick Haffner。基于梯度的学习应用于文档识别。IEEE会议记录,86(11):2278–23241998。 [44] Yann LeCun、Yoshua Bengio和Geoffrey Hinton。深度学习。《自然》,521(7553):436–4442015年。 [45] Kwang Y Lee和Mohamed A El-Sharkawi。现代启发式优化技术:电力系统理论与应用,第39卷。John Wiley&Sons,2008年。 [46] Li Qianxiao,Cheng Tai,and Weinan E.随机修正方程和自适应随机梯度算法。在2017年国际机器学习会议上,第2101–2110页。 [47] 丹尼尔·利伯松(Daniel Liberzon)。变分法和最优控制理论:简明介绍。普林斯顿大学出版社,2012年。28 ·Zbl 1239.49001号 [48] 刘东川和豪尔赫·诺塞达尔。关于用于大规模优化的有限内存BFGS方法。数学规划,45(1):503–5281989·Zbl 0696.90048号 [49] 亚历克谢·柳布欣。改进了求解最优控制问题的逐次逼近方法。苏联计算数学和数学物理,22(1):29-341982·Zbl 0504.49017号 [50] 兹比格尼夫·纳霍斯基(Zbigniew Nahorski)、汉斯·拉文(Hans F Ravn)和雷内·维克托·瓦尔基·维达尔(Rene’e Victor Valqui Vidal)。离散时间最大值原理:一项调查和一些新的结果。《国际控制杂志》,40(3):533–5541984·Zbl 0549.49021号 [51] 尼古拉·波戈达耶夫。连续性方程的最优控制。非线性微分方程及其应用,23(2):212016·Zbl 1337.49007号 [52] 列夫·斯蓬特里亚金。最优化过程的数学理论。CRC出版社,1987年。 [53] 阿尼尔·拉奥。最优控制数值方法综述。《宇宙航行科学进展》,135(1):497–5282009。 [54] 汉内斯·里斯肯(Hannes Risken)。福克普朗克方程。在福克-普朗克方程中,第63-95页。施普林格,1996年·Zbl 0866.60071号 [55] 赫伯特·罗宾斯和萨顿·蒙罗。一种随机近似方法。《数理统计年鉴》,第400-407页,1951年·Zbl 0054.05901号 [56] 桑福德·M·罗伯茨和杰罗姆·S·希普曼。两点边值问题:打靶方法。SIAM版本,16(2):2652661972·Zbl 0239.65061号 [57] 苏维克·罗伊和阿尔菲奥·波茨。一类刘维尔控制问题的数值研究。《科学计算杂志》,73:1782017年·Zbl 1386.35409号 [58] 列夫·罗佐尔(Lev I Rozonoer)。最优系统理论中L.S.Pontryagin的最大值原理。自动化和远程控制,20(10):11995年11月。 [59] Jüurgen Schmidhuber。神经网络中的深度学习:概述。神经网络,61:85–117,2015年。 [60] 伊利亚·萨茨克弗(Ilya Sutskever)、詹姆斯·马滕斯(James Martens)、乔治·达尔(George Dahl)和杰弗里·辛顿(Geoffrey Hinton)。关于深度学习中初始化和动量的重要性。2013年,在机器学习国际会议上,第1139–1147页。 [61] 加文·泰勒、瑞安·伯迈斯特、郑旭、巴拉特·辛格、安基特·帕特尔和汤姆·戈尔茨坦。无梯度训练神经网络:一种可扩展的ADMM方法。在国际机器学习会议上,第2722–2731页,2016年。 [62] 韩晓、卡西夫·拉苏尔和罗兰·沃尔格拉夫。Fashion-MNIST:用于基准机器学习算法的新型图像数据集。arXiv预印arXiv:1708.077472017。 [63] 马修·D·泽勒。Adadelta:一种自适应学习速率方法。arXiv预印本arXiv:1212.57012012。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。