×

深度网络中辍学的惊人特性。 (英语) Zbl 1469.68099号

摘要:我们分析了具有校正线性单元和二次损失的深度网络中的丢弃。我们的结果揭示了辍学行为与更传统的正则化方法(如体重衰减)之间的惊人差异。例如,在一些简单的数据集上,即使输出是输入的总和,辍学训练也会产生负权重。这与辍学不利于体重共同适应的说法正好相反。我们还表明,当权重衰减惩罚基本上保持线性时,丢失惩罚可以在网络深度中指数增长,并且丢失对输入特征、输出和网络权重的各种重新缩放不敏感。最后一个不敏感意味着辍学培训标准不存在孤立的局部极小值。我们的工作揭示了辍学的新特性,扩展了我们对辍学成功原因的理解,并为进一步进步奠定了基础。

MSC公司:

68T07型 人工神经网络与深度学习
62M45型 神经网络及从随机过程推断的相关方法
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] P.Bachman、O.Alsharif和D.Precup。用假装配学习。NIPS,2014年。
[2] P.Baldi和P.Sadowski。辍学学习算法。人工智能,210:78-1222014·Zbl 1333.68225号
[3] 皮埃尔·巴尔迪和彼得·萨多夫斯基。了解辍学情况。《神经信息处理系统进展》,第2814–2822页,2013年。
[4] P.L.Bartlett、M.I.Jordan和J.D.McAuliffe。凸性、分类和风险边界。美国统计协会杂志,101(473):138-1562006·Zbl 1118.62330号
[5] L.布雷曼。预测系综的一些无穷大理论。《统计年鉴》,32(1):2004年1月11日·Zbl 1105.62308号
[6] 咖啡馆。Caffe,2016年。http://caffe.berkeleyvision.edu。
[7] 陈丹奇(Danqi Chen)和克里斯托弗·德曼宁(Christopher D Manning)。使用神经网络的快速准确依赖关系解析器。在EMNLP中,第740-750页,2014年。
[8] G.E.达尔。深入了解我是如何做到的:2012年,默克公司第一名面试。http://blog.kaggle.com。
[9] G.E.Dahl、T.N.Sainath和G.E.Hinton。使用校正的线性单位和丢包改进LVCSR的深度神经网络。ICASSP,2013年。
[10] L.Deng、J.Li、J.Huang、K.Yao、D.Yu、F.Seide、M.L.Seltzer、G.Zweig、X.He、J.Williams、Y.Gong和A.Acero。微软语音研究深度学习的最新进展。ICASSP,2013年。
[11] Yarin Gal和Zoubin Ghahramani。辍学作为贝叶斯近似:表示深度学习中的模型不确定性。arXiv:1506.021422015年。
[12] Yarin Gal和Zoubin Ghahramani。递归神经网络中辍学的理论基础应用。《神经信息处理系统进展》,第1019–1027页,2016年。
[13] 伊恩·古德费罗(Ian J.Goodfellow)、大卫·沃德·法利(David Warde-Farley)、梅迪·米尔扎(Mehdi Mirza)、亚伦·库维尔(Aaron C.Courville)和约舒亚·本吉奥(Yoshua Bengio)。Maxout网络。在ICML中,第1319–1327页,2013年。26
[14] 穆罕默德·哈瓦伊(Mohammad Havaei)、阿克塞尔·戴维(Axel Davy)、大卫·沃德·法利(David Warde-Farley)、安托万·比亚德(Antoine Biard)、亚伦·库维尔(Aaron Courville)、约舒亚·本吉奥(Yoshua Bengio)、克里斯·帕尔(Chris Pa。基于深度神经网络的脑肿瘤分割。医学图像分析,35:18-312017年。
[15] 何开明、张湘玉、任少清、孙建军。深入研究整流器:在图像网络分类方面超越人类水平的性能。ICCV,第1026–1034页,2015年。
[16] D·P·赫尔姆博尔德和P·M·朗。关于辍学的归纳偏差。JMLR,16:3403–34542015年·Zbl 1351.68213号
[17] G.E.欣顿。《辍学:改进神经网络的简单有效方法》,2012年。videolecures.net。
[18] G.E.Hinton、N.Srivastava、A.Krizhevsky、I.Sutskever和R.R.Salakhutdinov。通过防止特征检测器的联合自适应改进神经网络,2012年。Arxiv,Arxiv:1207.0580v1·Zbl 1318.68153号
[19] Nal Kalchbrenner、Edward Grefenstette和Phil Blunsom。用于句子建模的卷积神经网络。在ACL中,第655-665页,2014年。
[20] P.M.Long和R.A.Servedio。随机分类噪声击败了所有凸势助推器。机器学习,78(3):287–3042010·Zbl 1470.68139号
[21] 维诺德·奈尔和杰弗里·欣顿。整流线性单元改善了受限的玻尔兹曼机器。在ICML中,第807–814页,2010年。
[22] 贝纳姆·内沙布尔(Behnam Neyshabur)、丰田良彦(Ryota Tomioka)和内森·斯雷布罗(Nathan Srebro)。神经网络中基于范数的容量控制。COLT,第1376–1401页,2015年。
[23] J¨urgen Schmidhuber。神经网络中的深度学习:概述。神经网络,61:85–117,2015年。
[24] N.Srivastava、G.Hinton、A.Krizhevsky、I.Sutskever和R.Salakhutdinov。辍学:防止神经网络过度拟合的简单方法。JMLR,15:1929–1958,2014年·Zbl 1318.68153号
[25] Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Angelov、Dumitru Erhan、Vincent Vanhoucke和Andrew Rabinovich。通过卷积进行更深入的研究。CVPR,2015年。
[26] TensorFlow公司。Tensorflow,2016年。https://www.tensorflow.org。
[27] 火炬。火炬,2016年。http://torch.ch。
[28] T.Van Erven、W.Kotowski和M.K.Warmuth。带着辍学焦虑跟随领导者。COLT,第949–974页,2014年。
[29] S.Wager、S.Wang和P.Liang。退学训练作为适应性正规化。NIPS,2013年。
[30] S.Wager、W.Fithian、S.Wang和P.S.Liang。高空训练:对单层辍学者有很强的限制。NIPS,2014年。27
[31] L.Wan、M.Zeiler、S.Zhang、Y.Le Cun和R.Fergus。使用dropconnect对神经网络进行正则化。在ICML中,第1058–1066页,2013年。
[32] 杨子超、何晓东、高剑锋、李登和亚历克斯·斯莫拉。用于图像问题回答的堆叠注意力网络。《IEEE计算机视觉和模式识别会议论文集》,第21-29页,2016年。
[33] T·张。基于凸风险最小化的分类方法的统计行为和一致性。《统计年鉴》,32(1):56-852004·Zbl 1105.62323号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。