×

基于线性乘积结构的神经网络权值初始化。 (英语) 兹比尔1510.68092

概述:权重初始化在神经网络训练中起着重要作用,也影响着大量的深度学习应用。针对不同的激活函数和不同的神经网络,已经开发了不同的权重初始化策略。这些初始化算法基于最小化层间参数的方差,当神经网络深度较大时(例如,濒临死亡的ReLU),这些算法仍可能失败。为了应对这一挑战,我们从非线性计算的角度研究了神经网络,并提出了一种新的基于神经网络线性乘积结构(LPS)的权重初始化策略。该策略基于激活函数的多项式逼近,利用数值代数几何理论来保证找到所有的局部极小值。我们还提供了一个理论分析,与其他现有的初始化策略相比,LPS初始化具有更低的ReLU死亡概率。最后,我们在全连接神经网络和卷积神经网络上测试了LPS初始化算法,以证明其在公共数据集上的可行性、效率和鲁棒性。

MSC公司:

2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 帕斯卡努,R。;Mikolov,T。;Bengio,Y.,《关于训练递归神经网络的困难》,机器学习国际会议,1310-1318(2013)
[2] D.Mishkin,J.Matas,你只需要一个好的init,arXiv预打印arXiv:1511.06422(2015)。
[3] Nguyen,D。;Widrow,B.,《通过选择自适应权重的初始值提高2层神经网络的学习速度》,1990年IJCNN国际神经网络联合会议,21-26(1990),IEEE
[4] 格洛洛特,X。;Bengio,Y.,《理解深度前馈神经网络训练的困难》,《第十三届国际人工智能与统计会议论文集》,249-256(2010)
[5] He,K。;张,X。;任,S。;Sun,J.,《深入研究整流器:在图像网络分类方面超越人类水平的性能》,IEEE计算机视觉国际会议论文集,1026-1034(2015)
[6] Arpit,D。;坎波斯,V。;Bengio,Y.,如何初始化网络?WeightNorm&ResNets的稳健初始化,神经信息处理系统进展,10900-10909(2019)
[7] S.Kumar,《关于深度神经网络中的权重初始化》,arXiv预印本arXiv:1704.08863(2017)。
[8] 宾夕法尼亚州。;Schoenholz,S。;Ganguli,S.,《通过动态等距恢复深度学习中的乙状结肠:理论与实践》,《神经信息处理系统进展》,4785-4795(2017)
[9] J.Pennington,S.Schoenholz,S.Ganguli,《深网络中光谱普遍性的出现》,arXiv预印本arXiv:1802.09979(2018)。
[10] 普尔,B。;拉希里,S。;拉古,M。;Sohl-Dickstein,J。;Ganguli,S.,通过瞬态混沌在深层神经网络中的指数表达,神经信息处理系统进展,3360-3368(2016)
[11] A.Saxe,J.McClelland,S.Ganguli,深度线性神经网络学习非线性动力学的精确解,arXiv预印本arXiv:1312.6120(2013)。
[12] D.Sussillo,L.Abbott,用于训练非常深度前馈网络的随机游动初始化,arXiv预印本arXiv:1412.6558(2014)。
[13] 陈,Q。;Hao,W.,全连接神经网络的同伦训练算法,Proc。R.Soc.A,475,2231,20190662(2019)·Zbl 1472.68131号
[14] Hao,W.,求解非线性方程组的梯度下降法,应用。数学。莱特。,112, 106739 (2021) ·Zbl 1454.65033号
[15] 郝伟(Hao,W.)。;胡,B。;Sommese,A.J.,《数值代数几何与微分方程》,《形状、几何与代数的未来展望与趋势》,第39-53页(2014年),施普林格出版社
[16] Sommese,A。;Wampler,C.,《工程与科学中多项式系统的数值解》(2005),《世界科学》·Zbl 1091.65049号
[17] 梅塔,D。;Chen,T。;Tang,T。;Hauenstein,J.,通过代数几何透镜观察深线性网络的损耗面,IEEE Trans。模式分析。机器。智力。(2021)
[18] Chon,K。;Cohen,R.,使用人工神经网络的线性和非线性ARMA模型参数估计,IEEE Trans。生物识别。工程师,44,3168-174(1997)
[19] 马,L。;Khorasani,K.,使用hermite多项式激活函数的构造前馈神经网络,IEEE Trans。神经网络。,16, 4, 821-833 (2005)
[20] 秀,D。;Karniadakis,G.,随机微分方程的Wiener-Askey多项式混沌,SIAM J.Sci。计算。,24, 2, 619-644 (2002) ·Zbl 1014.65004号
[21] 郝伟(Hao,W.)。;Zheng,C.,计算非线性参数系统分岔的自适应同伦方法,J.Sci。计算。,82, 3, 1-19 (2020) ·Zbl 1437.37111号
[22] 贝茨,D。;豪恩斯坦,J。;Sommese,A。;Wampler,C.,用Bertini数值求解多项式系统,25(2013),SIAM·Zbl 1295.65057号
[23] L.Lu,Y.Shin,Y.Su,G.Karniadakis,《死亡ReLU和初始化:理论和数值示例》,arXiv预印本arXiv:1903.06733(2019)·Zbl 1507.68248号
[24] Y.LeCun,C.Cortes,C.Burges,MNIST数据库,http://yann.lecun.com/exdb/mnist/。
[25] A.Krizhevsky,《CIFAR-10和CIFAR-100数据集》,https://www.cs.toronto.edu/kriz/cifar.html。
[26] He,K。;张,X。;任,S。;Sun,J.,图像识别的深度残差学习,IEEE计算机视觉和模式识别会议论文集,770-778(2016)
[27] 邓,J。;Dong,W。;Socher,R。;李,L。;李凯。;Li,F.,Imagenet:大型分层图像数据库,2009年IEEE计算机视觉和模式识别会议,248-255(2009),IEEE
[28] D.P.Kingma,J.Ba,Adam:随机优化方法,arXiv预印本arXiv:1412.6980(2014)。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。