×

一种新的基于赋范统计空间的深度网络初始化方法。 (英语) Zbl 1511.68239号

摘要:训练深层神经网络可能很困难。对于经典的神经网络,Xavier和Yoshua的初始化方法(后来由He、Zhang、Ren和Sun推广)可以促进稳定的训练。然而,随着新层类型的最近发展,我们发现上述初始化方法可能无法实现成功的训练。基于这两种方法,我们将通过研究网络的参数空间来提出一种新的初始化方法。我们的原则是以一致的方式约束不同层中参数的增长。为此,我们在参数空间中引入一个范数,并使用该范数来度量参数的增长。我们的新方法适用于广泛的层类型,特别是具有参数共享权重矩阵的层。

MSC公司:

68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] D.M.Bradley,模块化系统学习,博士论文,卡内基梅隆大学,2010年。
[2] C.Ding,S.Liao,Y.Wang,Z.Li,N.Liu,Y.Zhuo,C.Wang,X.Qian,Y.Bai,G.Yuan等人,Circnn:使用块循环权重矩阵加速和压缩深层神经网络,in第50届IEEE/ACM微体系结构国际研讨会论文集,ACM,(2017),395-408。
[3] X.Ding,H.Yang,R.Chan,H.Hu,Y.Peng和T.Zeng,一种新的具有权重分配的神经网络初始化方法,提交出版·兹比尔07468061
[4] C.董;C.C.洛伊;K.何;X.Tang,使用深度卷积网络的图像超分辨率,IEEE模式分析和机器智能汇刊,38,295-307(2015)·doi:10.1109/TPAMI.2015.2439281
[5] X.Glrot和Y.Bengio,《理解深度前馈神经网络训练的困难》第十三届国际人工智能与统计会议记录, (2010), 249-256.
[6] I.Goodfellow、Y.Bengio和A.Courville,《深度学习》,麻省理工学院出版社,2016年,http://www.deeplearningbook.org。 ·Zbl 1373.68009号
[7] K.He,X.Zhang,S.Ren和J.Sun,《深入研究整流器:在图像网络分类方面超越人类水平的表现》IEEE国际计算机视觉会议(ICCV), 2015.
[8] K.He,X.Zhang,S.Ren和J.Sun,图像识别的深度剩余学习IEEE计算机视觉和模式识别会议(CVPR), 2016.
[9] A.G.Howard、M.Zhu、B.Chen、D.Kalenichenko、W.Wang、T.Weyand、M.Andreetto和H.Adam,《移动视觉应用的高效卷积神经网络》,arXiv:1704.04861。
[10] J.Hu、L.Shen和G.Sun,挤压和励磁网络,inIEEE计算机视觉和模式识别会议记录, (2018), 7132-7141.
[11] A.Krizhevsky和G.Hinton,从微小图像中学习多层特征,技术报告,Citeser,2009年。
[12] Y.LeCun;博图乳杆菌;Y.Bengio;P.Haffner,基于梯度的学习应用于文档识别,IEEE会议记录,862278-2324(1998)·数字对象标识代码:10.1109/5.726791
[13] D.Mishkin和J.Matas,你只需要一个好的初始《学习代表国际会议》,2016年。
[14] O.Ronneberger,P.Fischer和T.Brox,U-net:生物医学图像分割的卷积网络,in医学图像计算和计算机辅助干预国际会议, (2015), 234-241.
[15] W.Rudin,真实和复杂分析第三版,麦格劳-希尔图书公司,纽约,1987年·Zbl 0925.00005
[16] W.Rudin,功能分析第2版,《国际纯数学和应用数学系列》,McGraw-Hill,Inc.,纽约,1991年·Zbl 0867.46001号
[17] M.Sandler、A.Howard、M.Zhu、A.Zhmoginov和L.-C.Chen,Mobilenetv2:倒置残差和线性瓶颈IEEE计算机视觉和模式识别会议记录, (2018), 4510-4520.
[18] A.Saxe、J.L.McClelland和S.Ganguli,深度线性神经网络中学习非线性动力学的精确解,arXiv:1312.6120·Zbl 1416.92018号
[19] K.Simonyan和A.Zisserman,用于大规模图像识别的极深卷积网络,arXiv:1409.1556。
[20] C.Szegedy、S.Ioffe、V.Vanhoucke和A.A.Alemi,Inception-v4、Incepton-Resnet和残余联系对学习的影响,2017年第三十一届AAAI人工智能会议。
[21] M.Taki,深度剩余网络和权重初始化,arXiv:1709.02956。
[22] L.Xiao,Y.Bahri,J.Sohl Dickstein,S.Schoenholz和J.Pennington,动态等距和cnns的平均场理论:如何训练10000层香草卷积神经网络机器学习国际会议, (2018), 5389-5398.
[23] F.Yu和V.Koltun,通过扩张卷积进行多尺度上下文聚合,arXiv:1511.07122。
[24] K.Zhang、W.Zuo、S.Gu和L.Zhang,在图像恢复之前学习深度cnn去噪器IEEE计算机视觉和模式识别会议记录, (2017), 3929-3938.
[25] T.Zhang,G.-J.Qi,B.Xiao和J.Wang,交错群卷积,inIEEE计算机视觉国际会议记录,(2017),4373-4382。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。