×

深度学习:应用数学家入门。 (英语) Zbl 1440.68214号

摘要:多层人工神经网络正在成为一种广泛应用的工具。这场深度学习革命的核心是应用数学和计算数学中熟悉的概念,尤其是微积分、近似理论、优化和线性代数中的概念。本文从应用数学的角度简要介绍了深层学习的基本思想。我们的目标受众包括渴望了解该领域的数学研究生和大四本科生。这篇文章也可能对那些希望通过参考深度学习技术的应用来活跃课堂的数学教师有用。我们关注三个基本问题:什么是深层神经网络?网络是如何训练的?什么是随机梯度法?我们用一个简短的MATLAB代码来说明这些想法,该代码用于建立和训练网络。我们还演示了在大规模图像分类问题上使用最先进的软件。最后,我们参考了当前的文献。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T07型 人工神经网络与深度学习
65K10码 数值优化和变分技术
65日第15天 函数逼近算法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Abadi、P.Barham、J.Chen、Z.Chen、A.Davis、J Dean、M.Devin、S.Ghemawat、G.Irving、M.Isard、M.Kudlur、J Levenberg、R.Monga、S.Moore、D.G.Murray、B.Steiner、P.Tucker、V.Vasudevan、P.Warden、M.Wicke、Y.Yu和X.Zheng,TensorFlow:大规模机器学习系统,第12届USENIX操作系统设计与实现研讨会(OSDI 16),2016年,第265-283页。
[2] R.Al-Rfou等人。,Theano:用于快速计算数学表达式的Python框架,预打印,https://arxiv.org/abs/1605.02688, 2016.
[3] L.Bottou、F.E.Curtis和J.Nocedal,大规模机器学习的优化方法SIAM版本,60(2018),第223-311页,https://doi.org/10.1137/16M1080173。 ·Zbl 1397.65085号
[4] T.B.Brown、D.Maneí、A.R.M.Abadi和J.Gilmer,对手补丁,预打印,https://arxiv.org/abs/1712.09665, 2017.
[5] P.Caramazza、A.Boccolini、D.Buschek、M.Hullin、C.F.Higham、R.Henderson、R.Murray-Smith和D.Faccio,用单像素单光子探测器对隐藏在视线之外的人进行神经网络识别,科学。众议员8(2018),第11945条。
[6] F.Cholet等人。,凯拉斯GitHub,2015年。
[7] R.Collobert、K.Kavukcuoglu和C.Farabet,Torch7:机器学习的Matlab-like环境,BigLearn,NIPS Workshop,2011年。
[8] J.H.Davenport,关于算法的争论,数学。今天,53(2017),第162-165页。
[9] J.Deng、W.Dong、R.Socher、L.-J.Li、K.Li和F.-F.Li,ImageNet:一个大规模的分层图像数据库,收录于CVPR,IEEE计算机学会,2009年,第248-255页。
[10] R.Fletcher,实用优化方法,第2版,Wiley,奇切斯特,英国,1987年·Zbl 0905.65002号
[11] I.Goodfellow、Y.Bengio和A.Courville,深度学习麻省理工学院出版社,波士顿,2016年·Zbl 1373.68009号
[12] I.J.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.C.Courville和Y.Bengio,生成性对抗网络,《神经信息处理系统进展》27,加拿大蒙特利尔,2014年,第2672-2680页。
[13] A.N.Gorban和I.Y.Tyukin,随机分离定理,《神经网络》,94(2017),第255-259页·Zbl 1429.68217号
[14] A.Griewank和A.Walther,评估导数:算法微分的原理和技术,第2版,SIAM,费城,2008年,https://doi.org/10.1137/1.9780898717761。 ·Zbl 1159.65026号
[15] P.研磨棒,超越隐私和曝光:公民行为分析中的道德问题,菲尔翻译。罗伊。Soc.A,374(2016),第2083页。
[16] M.Hardt、B.Recht和Y.Singer,训练更快,概括更好:随机梯度下降的稳定性,《第33届机器学习国际会议论文集》,2016年,第1225-1234页。
[17] C.F.Higham、R.Murray-Smith、M.J.Padgett和M.P.Edgar,实时单像素视频的深度学习,科学。众议员8(2018),第2369条。
[18] D.J.Higham,信赖域算法和时间步长选择,SIAM J.数字。分析。,37(1999),第194-210页,https://doi.org/10.1137/S0036142998335972。 ·Zbl 0945.65068号
[19] D.J.Higham和N.J.Hiham,MATLAB指南第三版,SIAM,费城,2017年·Zbl 1357.68001号
[20] Y.Jia、E.Shelhamer、J.Donahue、S.Karayev、J.Long、R.Girshick、S.Guadarrama和T.Darrell,Caffe:快速特征嵌入的卷积结构《第22届ACM国际多媒体会议记录》,ACM,纽约,2014年,第675-678页。
[21] A.克里日夫斯基,从微小图像中学习多层特征,多伦多大学技术代表,2009年。
[22] A.Krizhevsky、I.Sutskever和G.E.Hinton,基于深度卷积神经网络的Imagenet分类,《神经信息处理系统进展》25,F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger编辑,2012年,第1097-1105页。
[23] Y.LeCun、Y.Bengio和G.Hinton,深度学习《自然》,521(2015),第436-444页。
[24] Y.LeCun、L.Bottou、Y.Bengio和P.Haffner,基于梯度的学习在文档识别中的应用,程序。IEEE,86(1998),第2278-2324页。
[25] S.Mallat,理解深卷积网络,菲洛斯。事务处理。罗伊。Soc.London A,374(2016),第20150203条。
[26] G.马库斯,深度学习:批判性评价,预打印,https://arxiv.org/abs/1801.00631, 2018.
[27] M.尼尔森,神经网络与深度学习《决定出版社》,2015年。
[28] J.Nocedal和S.J.Wright,数值优化第二版,施普林格出版社,柏林,2006年·Zbl 1104.65059号
[29] D.E.Rumelhart、G.E.Hinton和R.J.Williams,通过错误传播学习内部表示《并行分布式处理:认知微观结构的探索》,第1卷,麻省理工学院出版社,马萨诸塞州剑桥,1986年,第318-362页。
[30] J.Schmidhuber,神经网络中的深度学习:综述《神经网络》,61(2015),第85-117页。
[31] D.Silver、A.Huang、C.J.Maddison、A.Guez、L.Sifre、G.van den Driessche、J.Schrittwieser、I.Antonoglou、V.Panneershelvam、M.Lanctot、S.Dieleman、D.Grewe、J.Nham、N.Kalchbrenner、I.Sutskever、T.Lillicrap、M.Leach、K.Kavukcuoglu、T.Graepel和D.Hassabis,通过深度神经网络和树搜索掌握围棋游戏《自然》,2529(2016),第484-489页。
[32] J.Sirignano和K.Spiliopoulos,连续时间随机梯度下降,SIAM J.Finan。数学。,8(2017),第933-961页,https://doi.org/10.1137/17M1126825。 ·Zbl 1407.91258号
[33] J.Su、D.V.Vargas和S.Kouichi,愚弄深层神经网络的单像素攻击,IEEE传输。进化。计算,以显示。
[34] A.Vedaldi和K.Lenc,MatConvNet:MATLAB的卷积神经网络,ACM国际多媒体会议,布里斯班,2015年,第689-692页。
[35] R.Vidal、R.Giryes、J.Bruna和S.Soatto,深度学习数学,在程序中。会议决策与控制(CDC),2017。
[36] H.Wang和B.Raj,论深度学习的起源,预打印,https://arxiv.org/abs/1702.07800, 2017.
[37] C.Zhang、S.Bengio、M.Hardt、B.Recht和O.Vinyals,理解深度学习需要重新思考泛化,2017年第五届国际学习代表大会。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。