文件Zbl 1467.68156-zbMATH Open

深度学习的最大原则算法。（英语） Zbl 1467.68156号

J.马赫。学习。物件。 18（2017-2018），论文编号165，29 p.（2018）.

总结：探索深度学习的连续动态系统方法，以设计训练算法的替代框架。训练被重新定义为一个控制问题，这使我们能够使用庞特里亚金最大值原理（PMP）在连续时间内制定必要的优化条件。然后，使用对逐次逼近方法的修改来求解PMP，从而产生用于深度学习的替代训练算法。这种方法的优点是可以建立严格的误差估计和收敛结果。我们还表明，它可以避免基于梯度的方法的一些缺陷，例如在鞍点附近的平坦地形上收敛缓慢。此外，我们证明，如果可以有效地实现哈密顿最大化，那么它可以获得良好的迭代初始收敛速度，这一步仍需改进。总的来说，该方法为解决与深度学习相关的问题开辟了新途径，例如陷入慢流形和基于梯度的方法对离散可训练变量的不适用性。

引用于1审查

引用于42文件

MSC公司：

68T07型	人工神经网络与深度学习
49N90型	最优控制和微分对策的应用
62M45型	神经网络及从随机过程推断的相关方法

关键词：

深度学习;最优控制;蓬特里亚金最大值原理;逐次逼近法

软件：

时尚-MNIST;二进制网络;二进制连接;DiffSharp（差异锐化）;MNIST公司;阿达格拉德;亚当;ImageNet公司;L-BFGS公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	弗拉基米尔·阿列克桑德罗夫。关于具有两个坐标的线性系统中扰动的积累。Vestnik MGU，1968年3月。
[2]	Marcin Andrychowicz、Misha Denil、Sergio Gomez、Matthew W Hoffman、David Pfau、Tom Schaul和Nando de Freitas。通过梯度下降学习。《神经信息处理系统进展》，第3981–3989页，2016年。
[3]	Michael Athans和Peter L Falb。最优控制：理论及其应用简介。Courier Corporation，2013年。
[4]	Atilim G Baydin、Barak A Pearlmutter、Alexey A Radul和Jeffrey M Siskind。机器学习中的自动微分：一项调查。arXiv预印本arXiv:150205.7672015。
[5]	Mokhtar S Bazaraa、Hanif D Sherali和Chitharanjan M Shetty。非线性规划：理论和算法。John Wiley&Sons，2013年·Zbl 1140.90040号
[6]	理查德·贝尔曼（Richard Bellman）。动态编程。Courier Corporation，2013年。
[7]	约舒亚·本吉奥（Yoshua Bengio）。学习人工智能的深层架构。机器学习的基础和趋势，2（1）：1–1272009·Zbl 1192.68503号
[8]	迪米特里·贝尔塞卡斯。动态编程和优化控制，第1卷。雅典娜科学公司，马萨诸塞州贝尔蒙特，1995年·Zbl 0904.90170号
[9]	迪米特里·贝尔塞卡斯。非线性规划。雅典娜科学贝尔蒙特，1999年·兹比尔1015.90077
[10]	约翰·贝茨。轨迹优化数值方法综述。制导控制与动力学杂志，21（2）：193-2071998·Zbl 1158.49303号
[11]	弗拉基米尔·格里戈·埃维奇（Vladimir Grigor’evich Boltyanskii）、Revaz Valer'yanovich Gamkrelidze和Lev Semenovich Pontryagin。最优过程理论。i.最大值原理。技术报告，TRW SPACE TECHNOLOGY LABS LOS ANGELES CALIF，1960年。
[12]	莱昂博图。具有随机梯度下降的大规模机器学习。2010年COMPSTAT会议记录，第177-186页。施普林格，2010年·Zbl 1436.68293号
[13]	阿尔贝托·布雷桑和贝内德托·皮科利。数学控制理论导论。AIMS应用数学系列，费城，2007年·Zbl 1127.93002号
[14]	亚瑟·厄尔·布赖森。应用最优控制：优化、估计和控制。CRC出版社，1975年。
[15]	安纳托利·布特科夫斯基。采样数据控制系统最优性的充要条件。Avtoma。i Telemekh，24（8）：1056–10641963年。
[16]	Bo Chang、Lili Meng、Eldad Haber、Lars Ruthotto、David Begert和Elliot Holtham。任意深度剩余神经网络的可逆结构。arXiv预印arXiv:1709.036982017。26
[17]	费利克斯·L·切尔诺斯科（Felix L Chernousko）和阿列克谢·柳布欣（Alexey A Lyubushin）。求解最优控制问题的逐次逼近方法。最优控制应用与方法，3（2）：101-1141982·Zbl 0485.49003号
[18]	弗朗西斯·克拉克（Francis Clarke），最佳控制中的最大值原理。控制与控制论，34（3）：7092005·Zbl 1167.49311号
[19]	马蒂厄·库巴里奥（Matthieu Courbariaux）、约书亚·本吉奥（Yoshua Bengio）和珍妮·皮埃尔·戴维（Jean-Pierre David）。二进制连接：在传播过程中使用二进制权重训练深层神经网络。《神经信息处理系统进展》，第3123-3131页，2015年。
[20]	马蒂厄·库巴里奥（Matthieu Courbariaux）、伊泰·胡巴拉（Itay Hubara）、丹尼尔·苏德利（Daniel Soudry）、兰·埃尔亚尼夫（Ran El-Yaniv）和约舒亚·本吉奥（Yoshua Bengio）。二值化神经网络：训练深度神经网络，权重和激活限制为+1或-1。arXiv预印arXiv:1602.02832016。
[21]	Wojciech M Czarnecki、Grzegorz´Swirszcz、Max Jaderberg、Simon Osindero、Oriol Vinyals和Koray Kavukcuoglu。了解合成梯度和解耦神经接口。arXiv预印arXiv:1703.005222017。
[22]	J.Deng、W.Dong、R.Socher、L.-J.Li、K.Li和L.Fei-Fei。ImageNet：一个大规模的层次化图像数据库。2009年CVPR09中。
[23]	约翰·杜奇（John Duchi）、伊拉德·哈赞（Elad Hazan）和约拉姆·辛格（Yoram Singer）。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志，12（7月）：2121–21592011·兹比尔1280.68164
[24]	渭南E.关于通过动态系统进行机器学习的建议。数学与统计传播，5（1）：2017年1月11日·Zbl 1380.37154号
[25]	托马斯·弗雷里克斯、托马斯·莫伦霍夫、迈克尔·默勒和丹尼尔·克雷默斯。近距离反向传播。arXiv预印arXiv:1706.046382017。
[26]	J威拉德·吉布斯。统计力学的基本原理。Courier Corporation，2014年·Zbl 1200.00032号
[27]	Ian Goodfellow、Yoshua Bengio和Aaron Courville。深度学习。麻省理工学院出版社，2016年·Zbl 1373.68009号
[28]	Eldad Haber和Lars Ruthotto。深层神经网络的稳定架构。arXiv预印arXiv:1705.033412017·Zbl 1426.68236号
[29]	Richard HR Hahnlosser、Rahul Sarpeshkar、Misha A Mahowald、Rodney J Douglas和H Sebastian Seung。数字选择和模拟放大共存于皮质酮激励硅电路中。《自然》，405（6789）：9472000。
[30]	休伯特·哈尔金。由非线性差分方程描述的系统的庞特里亚金型最大值原理。SIAM控制杂志，4（1）：90–1111966年·Zbl 0152.09301号
[31]	何开明、张湘玉、任少清、孙建军。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议记录》，第770-778页，2016年。27
[32]	马格努斯·赫斯特内斯。乘数法和梯度法。优化理论与应用杂志，4（5）：303–3201969年·Zbl 0174.20705号
[33]	R Jackson和F Horn。关于蓬特里亚金最大值原理的离散类比。国际控制杂志，1（4）：389–3951965。
[34]	Max Jaderberg、Wojciech M Czarnecki、Simon Osindero、Oriol Vinyals、Alex Graves和Koray Kavukcuoglu。使用合成梯度解耦神经接口。arXiv预印arXiv:1608.053432016。
[35]	罗伯特·詹里希（Robert I Jennrich）。非线性最小二乘估计量的渐近性质。《数理统计年鉴》，40（2）：633–6431969年·Zbl 0193.47201号
[36]	Rie Johnson和Tong Zhang。使用预测方差减少加速随机梯度下降。《神经信息处理系统进展》，第315–323页，2013年。
[37]	亨利·J·凯利。最优飞行路径的梯度理论。《阿尔斯杂志》，30（10）：947-9541960·Zbl 0096.42002号
[38]	Diederik Kingma和Jimmy Ba.Adam：一种随机优化方法。arXiv预印arXiv:1412.69802014。
[39]	Ivan A Krylov和Felix L Chernousko。关于最优控制问题的逐次逼近解法。J.公司。马塞姆。和数学物理，2（6），1962年。
[40]	延乐村。反向传播的理论框架。《康涅狄格州模特暑期学校》，第1卷，第21-28页，1988年。
[41]	延乐村。手写数字的MNIST数据库。http://yann。勒贡。com/exdb/mnist/，1998年。
[42]	Yann LeCun和Yoshua Bengio。图像、语音和时间序列的卷积网络。大脑理论和神经网络手册，3361（10）：1995，1995。
[43]	Yann LeCun、L´eon Bottou、Yoshua Bengio和Patrick Haffner。基于梯度的学习应用于文档识别。IEEE会议记录，86（11）：2278–23241998。
[44]	Yann LeCun、Yoshua Bengio和Geoffrey Hinton。深度学习。《自然》，521（7553）：436–4442015年。
[45]	Kwang Y Lee和Mohamed A El-Sharkawi。现代启发式优化技术：电力系统理论与应用，第39卷。John Wiley&Sons，2008年。
[46]	Li Qianxiao，Cheng Tai，and Weinan E.随机修正方程和自适应随机梯度算法。在2017年国际机器学习会议上，第2101–2110页。
[47]	丹尼尔·利伯松（Daniel Liberzon）。变分法和最优控制理论：简明介绍。普林斯顿大学出版社，2012年。28 ·Zbl 1239.49001号
[48]	刘东川和豪尔赫·诺塞达尔。关于用于大规模优化的有限内存BFGS方法。数学规划，45（1）：503–5281989·Zbl 0696.90048号
[49]	亚历克谢·柳布欣。改进了求解最优控制问题的逐次逼近方法。苏联计算数学和数学物理，22（1）：29-341982·Zbl 0504.49017号
[50]	兹比格尼夫·纳霍斯基（Zbigniew Nahorski）、汉斯·拉文（Hans F Ravn）和雷内·维克托·瓦尔基·维达尔（Rene’e Victor Valqui Vidal）。离散时间最大值原理：一项调查和一些新的结果。《国际控制杂志》，40（3）：533–5541984·Zbl 0549.49021号
[51]	尼古拉·波戈达耶夫。连续性方程的最优控制。非线性微分方程及其应用，23（2）：212016·Zbl 1337.49007号
[52]	列夫·斯蓬特里亚金。最优化过程的数学理论。CRC出版社，1987年。
[53]	阿尼尔·拉奥。最优控制数值方法综述。《宇宙航行科学进展》，135（1）：497–5282009。
[54]	汉内斯·里斯肯（Hannes Risken）。福克普朗克方程。在福克-普朗克方程中，第63-95页。施普林格，1996年·Zbl 0866.60071号
[55]	赫伯特·罗宾斯和萨顿·蒙罗。一种随机近似方法。《数理统计年鉴》，第400-407页，1951年·Zbl 0054.05901号
[56]	桑福德·M·罗伯茨和杰罗姆·S·希普曼。两点边值问题：打靶方法。SIAM版本，16（2）：2652661972·Zbl 0239.65061号
[57]	苏维克·罗伊和阿尔菲奥·波茨。一类刘维尔控制问题的数值研究。《科学计算杂志》，73:1782017年·Zbl 1386.35409号
[58]	列夫·罗佐尔（Lev I Rozonoer）。最优系统理论中L.S.Pontryagin的最大值原理。自动化和远程控制，20（10）：11995年11月。
[59]	Jüurgen Schmidhuber。神经网络中的深度学习：概述。神经网络，61:85–117，2015年。
[60]	伊利亚·萨茨克弗（Ilya Sutskever）、詹姆斯·马滕斯（James Martens）、乔治·达尔（George Dahl）和杰弗里·辛顿（Geoffrey Hinton）。关于深度学习中初始化和动量的重要性。2013年，在机器学习国际会议上，第1139–1147页。
[61]	加文·泰勒、瑞安·伯迈斯特、郑旭、巴拉特·辛格、安基特·帕特尔和汤姆·戈尔茨坦。无梯度训练神经网络：一种可扩展的ADMM方法。在国际机器学习会议上，第2722–2731页，2016年。
[62]	韩晓、卡西夫·拉苏尔和罗兰·沃尔格拉夫。Fashion-MNIST：用于基准机器学习算法的新型图像数据集。arXiv预印arXiv:1708.077472017。
[63]	马修·D·泽勒。Adadelta：一种自适应学习速率方法。arXiv预印本arXiv:1212.57012012。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

字段

操作员

深度学习的最大原则算法。（英语） Zbl 1467.68156号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

深度学习的最大原则算法。 （英语） Zbl 1467.68156号

MSC公司：

关键词：

软件：

参考文献：

深度学习的最大原则算法。（英语） Zbl 1467.68156号