×

深度和物理信息神经网络的局部自适应激活函数和斜率恢复。 (英语) Zbl 1472.68175号

摘要:我们提出了两种局部自适应激活函数的方法,即分层和神经元局部自适应激活功能,这两种方法提高了深度和物理信息神经网络的性能。激活函数的局部自适应是通过在每个层(分层)和每个神经元(神经元)分别引入一个可伸缩参数,然后使用一种随机梯度下降算法对其进行优化来实现的。为了进一步提高训练速度边坡恢复在损失函数中增加了项,进一步加快了收敛速度,从而降低了训练成本。在理论方面,我们证明了在该方法中,在实际条件下,梯度下降算法在初始化和学习速率上不会被吸引到次优临界点或局部极小值,并且该方法的梯度动力学不可通过任何(自适应)基方法实现学习率。我们进一步证明,自适应激活方法通过将条件矩阵隐式地乘以基本方法的梯度来加速收敛,而无需对条件矩阵和矩阵向量乘积进行任何显式计算。不同的自适应激活函数可以诱导不同的隐式条件矩阵。此外,提出的坡度恢复方法可以加快训练过程。

MSC公司:

68T07型 人工神经网络与深度学习
00A79号 物理
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Hinton G等人,2012,语音识别中声学建模的深度神经网络。IEEE信号处理杂志29,82-97。(doi:10.1109/MSP.2012.2205597)·doi:10.1109/MSP.2012.2205597
[2] Krizhevsky A,Sutskever I,Hinton G.2012使用深度卷积神经网络进行Imagenet分类。《神经信息处理系统进展》第25卷,《2012年第26届神经信息处理体系年度大会》,内华达州塔霍湖,12月1-6日,第1卷,第1097-1105页。神经信息处理系统基金会。
[3] Wu Y等人,2016年谷歌的神经机器翻译系统:弥合人类和机器翻译之间的差距。(http://arxiv.org/abs/1609.08144).
[4] Raissi M,Perdikaris P,Karniadakis GE,2019物理信息神经网络:用于解决涉及非线性偏微分方程的正向和反向问题的深度学习框架。J.计算。物理。378, 686-707. (doi:10.1016/j.jcp.2018.10.045)·Zbl 1415.68175号 ·doi:10.1016/j.jcp.2018.10.045
[5] Srivastava N,Hinton G,Krizhevsky A,Sutskever I,Salakhutdinov R.2014辍学:防止神经网络过度拟合的简单方法。J.马赫。《学习研究》第15卷,1929-1958年·Zbl 1318.68153号
[6] 于聪,唐永春,刘伯德。2002多层前馈神经网络的自适应激活函数。2002年IEEE地区10计算机、通信、控制和电力工程会议。TENCOM’02。程序。中国北京,10月28日至31日。新泽西州皮斯卡塔韦:IEEE。
[7] Qian S,Liu H,Liu C,Wu S,San Wong H.2018卷积神经网络中的自适应激活函数。神经计算272204-212。(doi:10.1016/j.neucom.2017.06.070)·doi:10.1016/j.neucom.2017.06.070
[8] Dushkoff M,Ptucha R.深度网络的自适应激活函数。电子成像,计算成像十四,第1-5(5)页。(doi:10.2352/ISSN.2470-1173.2016.19.COIMG-149)
[9] Li B,Li Y,Rong X.2013具有可调激活功能的极端学习机器学习算法。神经计算与申请22531-539。(doi:10.1007/s00521-012-0858-9)·doi:10.1007/s00521-012-0858-9
[10] 沈毅,王斌,陈凤,程磊2004一种新的具有可调激活函数的多输出神经网络模型及其应用。神经处理快报20,85-104。(doi:10.1007/s11063-004-0637-4)·doi:10.1007/s11063-004-0637-4
[11] Kunc V,Kléma J.2019关于基因表达推断神经网络中的转换自适应激活功能。生物Rxiv 587287。纽约州冷泉港:冷泉港实验室出版。
[12] Jagtap AD、Kawaguchi K、Karniadakis GE。2020自适应激活函数加速了深层和物理信息神经网络的收敛。J.计算。物理。404, 109136. (doi:10.1016/j.jcp.2019.109136)·Zbl 1453.68165号 ·doi:10.1016/j.jcp.2019.109136
[13] Jagtap AD、Kharazmi E、Karniadakis GE,2020年,守恒定律离散域上的保守物理信息神经网络:正问题和反问题的应用。计算。方法应用。机械。工程365113028。(doi:10.1016/j.cma.2020.113028)·兹比尔1442.92002 ·doi:10.1016/j.cma.2020.113028
[14] Wang S,Teng Y,Perdikaris P.2020理解和缓解物理信息神经网络中的梯度病理。(http://arxiv.org/abs/2001.04536Zbl 1530.68232号
[15] Baydin AG、Pearlmutter BA、Radul AA、Siskind JM.2018机器学习中的自动差异化:一项调查。J.马赫。学习研究18,1-43·Zbl 06982909号
[16] Ruder S.2017梯度下降优化算法概述。(http://arxiv.org/abs/1609.04747v2).
[17] Kingma DP,Ba JL.公司。2017 ADAM:一种随机优化方法。(http://arxiv.org/abs/1412.6980v9).
[18] Bertsekas博士。1999年非线性规划。马萨诸塞州贝尔蒙特:雅典娜科学·Zbl 1015.90077号
[19] Pakravan S,Mistani PA,Aragon-Calvo MA,Gibou F.2020使用物理感知神经网络解决逆向PDE问题。(http://arxiv.org/abs/2001.03608).
[20] Jagtap AD.2018双曲守恒律松弛流线上卷方法。波浪运动78,132-161。(doi:10.1016/j.wavemoti.2018.02.001)·Zbl 1469.65148号 ·doi:10.1016/j.wavemoti.2018.2.001
[21] LeCun Y,Bottou L,Bengio Y,Haffner P.1998基于梯度的学习应用于文档识别。程序。IEEE 86278-2324标准。(doi:10.1109/5.726791)·数字对象标识代码:10.1109/5.726791
[22] Xiao H,Rasul K,Vollgraf R.2017 Fashion-MNIST:一个用于基准机器学习算法的新型图像数据集。(http://arxiv.org/abs/1708.07747).
[23] Clanuwat T、Bober-Irizar M、Kitamoto A、Lamb A、Yamamoto K、Ha D.2018日本古典文学深度学习。(http://arxiv.org/abs/1812.01718).
[24] Tactile Srl,意大利布雷西亚(1994年)。Semeion手写数字数据集。意大利罗马:塞梅因传播科学研究中心。
[25] Netzer Y、Wang T、Coates A、Bissacco A、Wu B、Ng AY。2011年通过无监督特征学习读取自然图像中的数字。NIPS深度学习和无监督特征学习研讨会。
[26] Krizhevsky A,Hinton G.2009从微小图像中学习多层特征。技术报告,Citeser。
[27] He K,Zhang X,Ren S,Sun J.2016深度剩余网络中的身份映射。计算机视觉-ECCV 2016,第14届欧洲会议,荷兰阿姆斯特丹,10月11-14日,Proc。第四部分,第630-645页。斯普林格。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。