×

神经网络的平均场分析:一个大数定律。 (英语) Zbl 1440.60008号

概要:机器学习,特别是神经网络模型,已经彻底改变了图像、文本和语音识别等领域。如今,这些领域中许多重要的现实应用都是由神经网络驱动的。在工程、机器人、医学和金融领域也有越来越多的应用。尽管他们在实践中取得了巨大的成功,但对神经网络的数学理解仍然有限。本文说明了如何通过随机分析研究神经网络,并开发了解决出现的一些技术挑战的方法。我们分析了同时具有(a)大网络规模和(b)大量随机梯度下降训练迭代的渐近状态下的单层神经网络。我们严格证明了神经网络参数的经验分布收敛于非线性偏微分方程的解。这个结果可以被视为神经网络的大数定律。此外,我们分析的结果是,神经网络的训练参数逐渐独立,这一特性通常称为“混沌传播”

MSC公司:

2008年6月 概率论相关问题的计算方法
2015年1月60日 强极限定理
62M45型 神经网络及从随机过程推断的相关方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] B.Alipanahi、A.Delong、M.Weirauch和B.Frey,通过深度学习预测DNA和RNA结合蛋白的序列特异性,《自然生物技术》,33(2015),第831-838页。
[2] L.Ambrosio、N.Gigli和G.Savareí,《梯度流:在度量空间和概率测度空间中》,Springer,纽约,2008年·Zbl 1145.35001号
[3] S.Arik、M.Chrzanowski、A.Coates、G.Diamos、A.Gibiansky、Y.Kang、X.Li、J.Miller、A.Ng、J.Raiman和S.Sengputa,深度语音:实时神经文本到语音,https://arxiv.org/abs/1702.07825, 2017.
[4] A.Barron,人工神经网络的近似和估计界,马赫数。学习。,14(1994),第115-133页·Zbl 0818.68127号
[5] P.Bartlett、D.Foster和M.Telgarsky,神经网络的光谱规范化边界,高级神经信息处理。系统。,30(2017年),第6241-6250页。
[6] L.Bo和A.Capponi,银行间网络的系统风险,SIAM J.金融数学。,6(2015),第386-424页·Zbl 1315.91065号
[7] F.Bolley,《Wasserstein距离的可分离性和完备性》,载于Seíminaire de Probabilite-s XLI,C.Donati-Martin,M.Eímery,A.Rouault,and C.Stricker,eds.,《数学课堂讲稿》。1934年,施普林格,柏林,2008年·Zbl 1154.60004号
[8] M.Bojarski、D.Del Test、D.Dworakowski、B.Firnier、B.Flepp、P.Goyal、L.Jackel、M.Monfort、U.Muller、J.Zhang和X.Zhang,《自驾汽车的端到端学习》,https://arxiv.org/abs/1604.07316, 2016.
[9] 曹志伟、李伟伟、李思礼、魏凤,通过文本分类改进多文档摘要,载《AAAI人工智能会议论文集》,2017年,第3053-3059页。
[10] J.A.Carrillo、R.J.McCann和C.Villani,《颗粒介质的动力学平衡速率和相关方程:熵耗散和质量输运估算》,马特·伊伯朗评论。,19(2003),第971-1018页·Zbl 1073.35127号
[11] L.Chizat和F.Bach,关于使用最优传输的超参数模型梯度下降的全局收敛性,高级神经网络信息处理。系统。,32(2018),第3040-3050页。
[12] P.Dai Pra、W.Runggaldier、E.Sartori和M.Tolotti,《大型投资组合损失:动态传染模型》,Ann.Appl。概率。,19(2009),第347-394页·Zbl 1159.60353号
[13] P.Dai Pra和F.Hollander,随机介质中相互作用随机过程的McKean-Vlasov极限,J.Stat.Phys。,84(1996),第735-772页·Zbl 1081.60554号
[14] P.Dai Pra和M.Tolotti,《异质信贷组合和总损失动态》,随机过程。申请。,119(2009),第2913-2944页·Zbl 1187.91203号
[15] F.Delarue、J.Inglis、S.Rubenthaler和E.Tanre,具有奇异平均场自激的粒子系统。应用于神经元网络,随机过程。申请。,125(2015),第2451-2492页·兹伯利1328.60134
[16] S.Ethier和T.Kurtz,《马尔可夫过程:表征与收敛》,1986年,纽约威利出版社,1986年·Zbl 0592.60049号
[17] A.Esteva、B.Kuprel、R.Novoa、J.Ko、S.Swetter、H.Blau和S.Thrun,皮肤病学家用深度神经网络对皮肤癌进行分级,《自然》杂志,542(2017),第115-118页。
[18] K.Giesecke、K.Spiliopoulos和R.Sowers,《大型投资组合中的默认集群:典型事件》,Ann.Appl。概率。,23(2013),第348-385页·兹比尔1262.91141
[19] K.Giesecke、K.Spiliopoulos、R.Sowers和J.Sirignano,《违约损失的大型投资组合渐近性》,数学。《金融》,25(2015),第77-114页·Zbl 1314.91228号
[20] A.D.Gottlieb,《马尔可夫转换与混沌传播》,加州大学伯克利分校博士论文,1998年。
[21] I.Goodfellow、Y.Bengio和A.Courville,《深度学习》,麻省理工学院出版社,马萨诸塞州剑桥,2016年·Zbl 1373.68009号
[22] S.Gu、E.Holly、T.Lillicrap和S.Levine,《利用异步非政策更新进行机器人操作的深度强化学习》,《IEEE机器人与自动化会议论文集》,2017年,第3389-3396页。
[23] B.Hambly和S.Ledger,用于吸收半线扩散的随机McKean-Vlasov方程,Ann.Appl。概率。,27(2017),第2698-2752页·Zbl 1379.60068号
[24] K.Hornik、M.Stinchcombe和H.White,多层前馈网络是通用逼近器,《神经网络》,2(1989),第359-366页·Zbl 1383.92015年
[25] K.Hornik,多层前馈网络的近似能力,神经网络,4(1991),第251-257页。
[26] K.Hu,Z.Ren,D.Šis \780;ka,和L.Szpruch,《神经网络的Mean-Field Langevin动力学和能量景观》,https://arxiv.org/abs/1905.07769, 2019. ·Zbl 1492.65023号
[27] J.Inglis和D.Talay,随机粒子系统通过阈值触发时间平滑交互的Mean场极限,以及在具有树状成分的神经网络中的应用,SIAM J.Math。分析。,47(2015),第3884-3916页·Zbl 1325.60158号
[28] R.Jordan、D.Kinderlehrer和F.Otto,福克-普朗克方程的变分公式,SIAM J.Math。分析。,29(1998),第1-17页·Zbl 0915.35120号
[29] V.N.Kolokoltsov,非线性马尔可夫过程和动力学方程,剑桥数学丛书。182,剑桥大学出版社,英国剑桥,2010年·Zbl 1222.60003号
[30] C.Kuan和K.Hornik,学习算法与恒定学习速率的收敛,IEEE Trans。神经网络,2(1991),第484-489页。
[31] Y.LeCun、Y.Bengio和G.Hinton,《深度学习》,《自然》,521(2015),第436-444页。
[32] Y.LeCun、L.Bottou、Y.Bengio和P.Haffner,基于梯度的学习应用于文档识别,Proc。IEEE,86(1998),第2278-2324页。
[33] Y.Leviathan和Y.Matias,《谷歌双工:通过电话完成现实世界任务的人工智能系统》,谷歌人工智能博客,AI.goggleblog.com.2018/05/Duplex-AI-System-for-natural-conversation.html,2018年。
[34] J.Ling、A.Kurzawski和J.Templeton,使用嵌入不变性的深层神经网络进行雷诺平均湍流建模,J.Fluid Mech。,807(2016),第155-166页·兹比尔1383.76175
[35] J.Ling、R.Jones和J.Templeton,具有不变性系统的机器学习策略,J.Compute。物理。,318(2016),第22-35页·兹比尔1349.76124
[36] S.Mallat,理解深度卷积神经网络,Philos。事务处理。A、 374(2016),20150203。
[37] O.Moynot和M.Samuelides,不对称随机递归神经网络的大偏差和平均场理论,概率论。理论相关领域,123(2002),第41-75页·Zbl 1004.60023号
[38] S.Mei、A.Montanari和P.Nguyen,两层神经网络景观的平均场视图,Proc。国家。阿卡德。科学。美国,115(2018),第7665-7671页·Zbl 1416.92014号
[39] R.Nallapati、B.Zhou、C.Gulcehre和B.Xiang,使用序列到序列RNN及其后的抽象文本摘要,https://arxiv.org/abs/1602.06023, 2016.
[40] H.Pierson和M.Gashler,《机器人的深度学习:最新研究综述》,《高级机器人学》,31(2017),第821-835页。
[41] G.M.Rotskoff和E.Vanden-Eijnden,作为相互作用粒子系统的神经网络:损失景观的渐近凸性和近似误差的普适尺度,https://arxiv.org/abs/1805.00915, 2018.
[42] D.Silver等人,《掌握深度网络和树搜索的围棋游戏》,《自然》,529(2016),第484-489页。
[43] J.Sirignano、A.Sadhwani和K.Giesecke,《抵押风险深度学习》,https://arxiv.org/abs/1607.02470, 2016.
[44] J.Sirignano和R.Cont,《金融市场价格形成的普遍特征:深度学习的视角》,https://arxiv.org/abs/1803.06917, 2018. ·Zbl 1420.91433号
[45] J.Sirignano和K.Spiliopoulos,DGM:解偏微分方程的深度学习算法,J.Compute。物理。,375(2018),第1339-1364页·Zbl 1416.65394号
[46] J.Sirignano和K.Spiliopoulos,神经网络的平均场分析:中心极限定理,随机过程。申请。,出现·Zbl 1441.60022号
[47] J.Sirignano和K.Spiliopoulos,深度神经网络的平均场分析,https://arxiv.org/abs/1903.04440, 2019. ·Zbl 1441.60022号
[48] H.Sompolinsky、A.Crisanti和H.Sommers,《随机神经网络中的混沌》,物理。修订稿。,61 (1988), 259.
[49] A.-S.Sznitman,《混沌传播的主题》,收录于《高等教育》1989年版,P.-L.Hennequin主编,《数学课堂笔记》。1464年,柏林施普林格出版社,1991年,第165-251页·Zbl 0732.60114号
[50] I.Sutskever、O.Vinyals和Q.Le,神经网络的序列到序列学习,高级神经信息处理。系统。,27(2014),第3104-3112页。
[51] N.Sunderhauf、O.Brock、W.Cheirer、R.Hadsell、D.Fox、J.Leitner、B.Upcroft、P.Abbeel、W.Burgard、M.Milford和P.Corke,机器人深度学习的局限性和潜力,国际。《机器人研究杂志》,37(2018),第405-420页。
[52] M.Telgarsky,神经网络深度的好处,https://arxiv.org/abs/1602.04485, 2016.
[53] Y.Taigman、M.Yang、M.Ranzato和L.Wolf,《深层面:缩小人脸验证中人的绩效差距》,《IEEE计算机视觉和模式识别会议论文集》,2014年,第1701-1708页。
[54] C.Wang、J.Mattingly和Y.Lu,缩放极限:在线学习算法的精确和可追踪分析及其在正则回归和主成分分析中的应用,https://arxiv.org/abs/11712.04332, 2017.
[55] Y.Wu、M.Schuster、Z.Chen、Q.Le、M.Norouzi、W.Macherey、M.Krikun、Y.Cao、Q.Gao、K.Macheree和J.Klingner,谷歌的神经机器翻译系统:缩小人机翻译之间的差距,https://arxiv.org/abs/1609.08144, 2016.
[56] Y.Zhang、W.Chan和N.Jaitly,端到端语音识别的深度卷积网络,IEEE声学、语音和信号处理国际会议,2017年,第4845-4849页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。