文件Zbl 1468.68181-zbMATH Open

随机增量规则：通过自适应权重噪声更快、更准确地进行深度学习。（英语） Zbl 1468.68181号

神经计算。 32，第5期，1018-1032（2020）.

摘要：多层神经网络在文本、语音和图像处理的许多基准任务中都取得了显著的性能。众所周知，层次模型中的非线性参数估计容易出现过拟合和误指定。解决这些估计和相关问题（例如鞍点、共线性、特征发现）的一种方法称为Dropout。Dropout算法根据每次更新前的概率为（p）的二项式随机变量删除隐藏单元，从而对网络产生随机“冲击”，这些冲击是更新后的平均值（从而产生权重共享）。在这封信中，我们重新建立了一种旧的参数搜索方法，并表明Dropout是这个更通用模型的特例，即最初于1990年发布的随机增量规则（SDR）。与Dropout不同，SDR将网络中的每个权重重新定义为具有平均值（mu_{w_{ij}}）和标准偏差（sigma_{w{ij{}}，）的随机变量。每个权重随机变量在每次前向激活时进行采样，从而创建具有共享权重的指数数量的潜在网络（累积在平均值中）。这两个参数都根据预测误差进行更新，从而产生反映预测误差局部历史和局部模型平均值的权重噪声注入。因此，SDR实现了一种更为敏感的局部梯度相关模拟退火每权重算法，该算法收敛于贝叶斯最优网络的极限。我们在标准基准（CIFAR和ImageNet）上进行了测试使用DenseNet的修改版本，并表明SDR在ImageNet上的DenseNet BC 121的前5个验证误差中比标准Dropout高出约13%，并在较小的网络中发现了各种验证误差的改进。我们还表明，SDR在短短40个时间段内达到了与Dropout在100个时间段达到的精度相同的精度，并且训练误差提高了80%。

引用于2文件

MSC公司：

68T07型

人工神经网络与深度学习

软件：

PyTorch公司；CIFAR公司；ImageNet公司；达奇；G管道；效率网；github

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	Baldi，P.和Sadowski，P.J.（2014）。Dropout学习算法。人工智能，210，78-122·Zbl 1333.68225号
[2]	Blundell，C.、Cornebise，J.、Kavukcuoglu，K.和Wierstra，D.（2015）。了解辍学。神经信息处理系统进展，262814-2822。纽约州红钩市：Curran。
[3]	伯恩斯，B.D.（1968）。不确定的神经系统。伦敦：爱德华·阿诺德出版社。
[4]	Dauphin，Y.N.、Pascanu，R.、Culcehre，C.、Cho，K.、Ganguli，S.和Bengio，Y.（2014）。识别和攻击高维非凸优化中的鞍点问题。Z.Ghahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger（编辑），《神经信息处理系统的进展》，27，2933-2941。纽约州红钩市：Curran。
[5]	Deng，J.，Dong，W.，Socher，R.，Li，L.-J.，Li.，K.，&Fei-Fei，L.（2009）。ImageNet：大型分层图像数据库。IEEE计算机视觉和模式识别会议论文集。新泽西州皮斯卡塔韦：IEEE。
[6]	Faisal，A.、Selen，L.和Wolpert，D.（2008）。神经系统中的噪音。《自然评论神经科学》，9，292-303，
[7]	Fortunato，M.、Azar，M.G.、Piot，B.、Menick，J.、Hessel，M.，Osband，I.…Legg，S.（2018）。用于探索的嘈杂网络。《学习代表国际会议论文集》。
[8]	Gal，Y.和Ghahramani，Z.（2016）。辍学作为贝叶斯近似：表示深度学习中的模型不确定性。第33届机器学习国际会议论文集，48（第1050-1059页）。
[9]	Gloot，X.和Benjio，Y.（2010年）。了解训练深度前馈神经网络的困难。《第十三届国际人工智能与统计会议记录》（第249-256页）。
[10]	Graves，A.（2011年）。神经网络的实用变分推理。Shawe-Taylor、R.S.Zemel、P.L.Bartlett、F.Pereira和K.Q.Weinberger（编辑），《神经信息处理系统的进展》，24（第2348-2356页）。纽约州红钩市：Curran。
[11]	Hanson，S.J.（1990年）。增量规则的随机版本。《物理D》，42，265-272，
[12]	Hanson，S.J.（1992）。SDR变化。未发表的手稿。
[13]	Hanson，S.J.和Pratt，L.Y.（1989年）。比较最小网络构建和反向传播的偏差。D.Touretzky（编辑），《神经信息和处理系统的进展》，2（第177-185页）。加利福尼亚州圣马特奥：摩根·考夫曼。
[14]	Hinton，G.和Salakhutdinov，R.（2006）。利用神经网络降低数据的维数。科学，313（5786），504-507·Zbl 1226.68083号
[15]	Huang G.、Liu、Z.Weinberger，K.和Maaten，L.（2017）。紧密连接的卷积网络。IEEE计算机视觉和模式识别会议论文集。新泽西州皮斯卡塔韦：IEEE。
[16]	Huang，Y.，Cheng，Y.、Bapna，A.、Firat，O.、Chen，D.、Chen、M.…Chen，Z.（2019）。GPipe：使用流水线并行性高效地训练巨型神经网络。H.Wallach、H.Larochelle、A.Beygelzimer、F.d'Aleché-Bee、E.Fox和R.Garnett（编辑），《神经信息处理系统的进展》，32（第103-112页）。纽约州红钩市：Curran。
[17]	川口，K.（2016）。深度学习，没有不良的局部极小值。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett（编辑），《神经信息处理系统的进展》，29（第586-594页）。纽约州红钩市：Curran。
[18]	Krizhevsky，A.（2009）。从微小图像中学习多层特征（技术报告），https://www.cs.toronto.edu/kriz/learning-features-2009-TR.pdf。
[19]	Real，E.、Aggarwal，A.、Huang，Y.和Le，Q.V.（2019年）。图像分类器结构搜索的正则化进化。《AAAI人工智能会议记录》，第33页。加利福尼亚州帕洛阿尔托：AAAI，
[20]	Srivastava，N.、Hinton，G.、Krizhevsky，A.、Sutskever，I.和Salakhutdinov，R.R.（2012）。通过防止特征检测器的联合自适应来改进神经网络。arxiv公司：http://arXiv.org/abs/1207.0580。 ·Zbl 1318.68153号
[21]	Tan，M.，&Le，Q.（2019年）。EfficientNet：重新思考卷积神经网络的模型缩放。第36届机器学习国际会议论文集，97（第6105-6114页）。
[22]	Veit，A.（2017）。密集连接卷积网络（DenseNets）的PyTorch实现。GitHub存储库，https://github.com/andreasveit/densenet-pytorch/
[23]	Wan，L.、Zeiler，M.、Zhang，S.、LeCun，Y.和Fergus，R.（2013）。使用DropConnect对神经网络进行正则化。第30届机器学习国际会议论文集。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
立方厘米	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

随机增量规则：通过自适应权重噪声更快、更准确地进行深度学习。（英语） Zbl 1468.68181号

MSC公司：

软件：

参考文献：

示例

领域

操作员

随机增量规则：通过自适应权重噪声更快、更准确地进行深度学习。 （英语） Zbl 1468.68181号

MSC公司：

软件：

参考文献：

随机增量规则：通过自适应权重噪声更快、更准确地进行深度学习。（英语） Zbl 1468.68181号