×

随机增量规则:通过自适应权重噪声更快、更准确地进行深度学习。 (英语) Zbl 1468.68181号

摘要:多层神经网络在文本、语音和图像处理的许多基准任务中都取得了显著的性能。众所周知,层次模型中的非线性参数估计容易出现过拟合和误指定。解决这些估计和相关问题(例如鞍点、共线性、特征发现)的一种方法称为Dropout。Dropout算法根据每次更新前的概率为(p)的二项式随机变量删除隐藏单元,从而对网络产生随机“冲击”,这些冲击是更新后的平均值(从而产生权重共享)。在这封信中,我们重新建立了一种旧的参数搜索方法,并表明Dropout是这个更通用模型的特例,即最初于1990年发布的随机增量规则(SDR)。与Dropout不同,SDR将网络中的每个权重重新定义为具有平均值(mu_{w_{ij}})和标准偏差(sigma_{w{ij{}},)的随机变量。每个权重随机变量在每次前向激活时进行采样,从而创建具有共享权重的指数数量的潜在网络(累积在平均值中)。这两个参数都根据预测误差进行更新,从而产生反映预测误差局部历史和局部模型平均值的权重噪声注入。因此,SDR实现了一种更为敏感的局部梯度相关模拟退火每权重算法,该算法收敛于贝叶斯最优网络的极限。我们在标准基准(CIFAR和ImageNet)上进行了测试使用DenseNet的修改版本,并表明SDR在ImageNet上的DenseNet BC 121的前5个验证误差中比标准Dropout高出约13%,并在较小的网络中发现了各种验证误差的改进。我们还表明,SDR在短短40个时间段内达到了与Dropout在100个时间段达到的精度相同的精度,并且训练误差提高了80%。

MSC公司:

68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Baldi,P.和Sadowski,P.J.(2014)。Dropout学习算法。人工智能,210,78-122·Zbl 1333.68225号
[2] Blundell,C.、Cornebise,J.、Kavukcuoglu,K.和Wierstra,D.(2015)。了解辍学。神经信息处理系统进展,262814-2822。纽约州红钩市:Curran。
[3] 伯恩斯,B.D.(1968)。不确定的神经系统。伦敦:爱德华·阿诺德出版社。
[4] Dauphin,Y.N.、Pascanu,R.、Culcehre,C.、Cho,K.、Ganguli,S.和Bengio,Y.(2014)。识别和攻击高维非凸优化中的鞍点问题。Z.Ghahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,27,2933-2941。纽约州红钩市:Curran。
[5] Deng,J.,Dong,W.,Socher,R.,Li,L.-J.,Li.,K.,&Fei-Fei,L.(2009)。ImageNet:大型分层图像数据库。IEEE计算机视觉和模式识别会议论文集。新泽西州皮斯卡塔韦:IEEE。
[6] Faisal,A.、Selen,L.和Wolpert,D.(2008)。神经系统中的噪音。《自然评论神经科学》,9,292-303,
[7] Fortunato,M.、Azar,M.G.、Piot,B.、Menick,J.、Hessel,M.,Osband,I.…Legg,S.(2018)。用于探索的嘈杂网络。《学习代表国际会议论文集》。
[8] Gal,Y.和Ghahramani,Z.(2016)。辍学作为贝叶斯近似:表示深度学习中的模型不确定性。第33届机器学习国际会议论文集,48(第1050-1059页)。
[9] Gloot,X.和Benjio,Y.(2010年)。了解训练深度前馈神经网络的困难。《第十三届国际人工智能与统计会议记录》(第249-256页)。
[10] Graves,A.(2011年)。神经网络的实用变分推理。Shawe-Taylor、R.S.Zemel、P.L.Bartlett、F.Pereira和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,24(第2348-2356页)。纽约州红钩市:Curran。
[11] Hanson,S.J.(1990年)。增量规则的随机版本。《物理D》,42,265-272,
[12] Hanson,S.J.(1992)。SDR变化。未发表的手稿。
[13] Hanson,S.J.和Pratt,L.Y.(1989年)。比较最小网络构建和反向传播的偏差。D.Touretzky(编辑),《神经信息和处理系统的进展》,2(第177-185页)。加利福尼亚州圣马特奥:摩根·考夫曼。
[14] Hinton,G.和Salakhutdinov,R.(2006)。利用神经网络降低数据的维数。科学,313(5786),504-507·Zbl 1226.68083号
[15] Huang G.、Liu、Z.Weinberger,K.和Maaten,L.(2017)。紧密连接的卷积网络。IEEE计算机视觉和模式识别会议论文集。新泽西州皮斯卡塔韦:IEEE。
[16] Huang,Y.,Cheng,Y.、Bapna,A.、Firat,O.、Chen,D.、Chen、M.…Chen,Z.(2019)。GPipe:使用流水线并行性高效地训练巨型神经网络。H.Wallach、H.Larochelle、A.Beygelzimer、F.d'Aleché-Bee、E.Fox和R.Garnett(编辑),《神经信息处理系统的进展》,32(第103-112页)。纽约州红钩市:Curran。
[17] 川口,K.(2016)。深度学习,没有不良的局部极小值。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett(编辑),《神经信息处理系统的进展》,29(第586-594页)。纽约州红钩市:Curran。
[18] Krizhevsky,A.(2009)。从微小图像中学习多层特征(技术报告),https://www.cs.toronto.edu/kriz/learning-features-2009-TR.pdf。
[19] Real,E.、Aggarwal,A.、Huang,Y.和Le,Q.V.(2019年)。图像分类器结构搜索的正则化进化。《AAAI人工智能会议记录》,第33页。加利福尼亚州帕洛阿尔托:AAAI,
[20] Srivastava,N.、Hinton,G.、Krizhevsky,A.、Sutskever,I.和Salakhutdinov,R.R.(2012)。通过防止特征检测器的联合自适应来改进神经网络。arxiv公司:http://arXiv.org/abs/1207.0580。 ·Zbl 1318.68153号
[21] Tan,M.,&Le,Q.(2019年)。EfficientNet:重新思考卷积神经网络的模型缩放。第36届机器学习国际会议论文集,97(第6105-6114页)。
[22] Veit,A.(2017)。密集连接卷积网络(DenseNets)的PyTorch实现。GitHub存储库,https://github.com/andreasveit/densenet-pytorch/
[23] Wan,L.、Zeiler,M.、Zhang,S.、LeCun,Y.和Fergus,R.(2013)。使用DropConnect对神经网络进行正则化。第30届机器学习国际会议论文集。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。