×

机器学习:随机反向传播和深度学习通道。 (英语) Zbl 1445.68186号

摘要:随机反向传播(RBP)是用于训练神经网络的反向传播算法的一种变体,在计算权重更新时,前向矩阵的转置被固定随机矩阵所取代。尽管使用随机矩阵来传递错误信息,但由于其有效性,以及由于它完全消除了物理神经系统中保持对称权重的繁重要求,这两方面都非常显著。为了更好地理解随机反向传播,我们首先将其与局部学习和学习通道的概念联系起来。通过这一联系,我们导出了RBP的几种替代方案,包括跳过RBP(SRBP)、自适应RBP(ARBP)、稀疏RBP及其组合(例如ASRBP),并分析了它们的计算复杂性。然后,我们使用MNIST和CIFAR-10基准数据集通过仿真研究它们的行为。这些模拟表明,大多数这些变体都能稳健地工作,几乎与反向传播一样,并且通过激活函数的导数进行乘法非常重要。作为后续行动,我们还研究了通过学习信道传输错误信息所需的低端比特数。然后,我们对RBP及其变体的一些显著特性提供了部分直观的解释。最后,我们证明了RBP及其变体的几个数学结果,包括:(1)任意长度线性链收敛到最优不动点;(2) 具有去相关数据的线性自编码器收敛到不动点;(3) 单隐层线性系统解的长期存在性及其在特殊情况下的收敛性(英文);(4)当包含激活函数的导数时,收敛到非线性链的不动点。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agostinelli,F。;塞格里亚,N。;Shahbaba,B。;Sassone-Corsi,P。;鲍迪,P,现在几点了?昼夜节律的深度学习方法,生物信息学,32,12,(2016),i8-i17
[2] 巴尔迪,P。;Hornik,K.,《神经网络和主成分分析:从没有局部极小值的示例中学习》,神经网络。,2, 1, 53-58, (1988)
[3] 巴尔迪,P。;Lu,Z.,复值自动编码器,神经网络。,33, 136-147, (2012) ·Zbl 1258.68111号
[4] 巴尔迪,P。;卢,Z。;Sadowski,P.,《机器中的学习:深度学习通道的对称性》,神经网络。,95, 110-133, (2017) ·Zbl 1434.68497号
[5] 巴尔迪,P。;Sadowski,P.,辍学学习算法,Artif。整数。,210C,78-122,(2014)·Zbl 1333.68225号
[6] 巴尔迪,P。;Sadowski,P.,《局部学习、学习通道和反向传播优化理论》,神经网络。,83, 61-74, (2016)
[7] 巴尔迪,P。;萨多夫斯基,P。;怀特森,D.,《通过深度学习在高能物理中寻找奇异粒子》,《国家通讯》。,5, (2014)
[8] Di Lena,P。;Nagata,K。;Baldi,P.,蛋白质接触图预测的深层结构,生物信息学,282449-2457,(2012),首次在线发布:2012年7月30日
[9] 艾森巴德,D.,《面向代数几何的交换代数》,Grad。数学课文。,第150卷,(1995),Springer-Verlag纽约·Zbl 0819.13001号
[10] Fukushima,K.,Neocognitron:不受位置变化影响的模式识别机制的自组织神经网络模型,Biol。赛博。,36, 4, 193-202, (1980) ·Zbl 0419.92009号
[11] 格洛洛特,X。;Bengio,Y.,《理解深度前馈神经网络训练的困难》(《国际人工智能与统计会议论文集》,AISTATS10,(2010),人工智能与统计学学会)
[12] 格雷夫斯,A。;A.-R.穆罕默德。;Hinton,G.,深度递归神经网络语音识别,(2013年IEEE声学、语音和信号处理国际会议,ICASSP,(2013),IEEE),6645-6649
[13] 韩,S。;毛,H。;Dally,W.J.,深度压缩:用修剪、训练量化和霍夫曼编码压缩深度神经网络,(2015),CoRR
[14] He,K。;张,X。;任,S。;Sun,J.,图像识别的深度剩余学习,(2015),arXiv预印本
[15] Hebb,D.,《行为的组织:神经心理学研究》,(1949年),纽约威利跨科学出版社
[16] 辛顿,G.E。;北斯利瓦斯塔瓦。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.R.,《通过防止特征检测器的联合自适应改进神经网络》(2012年7月)
[17] 胡巴拉,I。;Courbariaux,M。;Soudry,D。;El-Yaniv,R。;Bengio,Y.,量化神经网络:用低精度权重和激活训练神经网络,(2016),CoRR·Zbl 1468.68183号
[18] 胡贝尔,D.H。;Wiesel,T.N.,《猫视觉皮层的接收场、双眼交互和功能结构》,J.Physiol。,160, 1, 106, (1962)
[19] 伊利亚申科,Y.,希尔伯特第16个问题百年历史,公牛。美国数学。《社会学杂志》,39,3,301-354,(2002)·Zbl 1004.34017号
[20] Krizhevsky,A。;Hinton,G.,《从微小图像中学习多层特征》(2009年)
[21] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,用深度卷积神经网络进行Imagenet分类,(神经信息处理系统进展,(2012)),1097-1105
[22] 乐村,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,Proc。IEEE,86,11,2278-2324,(1998)
[23] 廖琦(Liao,Q.)。;雷波,J。;Poggio,T.,权重对称在反向传播中有多重要?,(第三十届AAAI人工智能会议论文集,(2016)),1837-1844
[24] Lillicrap,T.P。;Cownden,D。;特威德,D.B。;Akerman,C.J.,《随机反馈权重支持深度神经网络学习》(2014)
[25] 里德米勒,M。;Braun,H.,《快速反向传播学习的直接自适应方法:RPROP算法》,(IEEE神经网络国际会议,第1卷,(1993)),586-591
[26] 萨多夫斯基,P。;科拉多·J。;怀特森博士。;Baldi,P.,《深度学习、暗知识和暗物质》,《研讨会和会议记录》,J.Mach。学习。研究,42,81-97,(2015)
[27] Shannon,C.E.,《通信数学理论》(第三部分),贝尔系统。技术期刊,XXVII,623-656,(1948)·Zbl 1154.94303号
[28] Shannon,C.E.,《通信数学理论》(第一部分和第二部分),贝尔系统。技术期刊,第二十七期,379-423页,(1948年)·Zbl 1154.94303号
[29] Smale,S.,《下个世纪的数学问题》,数学。整数。,20, 2, 7-15, (1998) ·Zbl 0947.01011号
[30] Srivastava,R.K。;格雷夫,K。;Schmidhuber,J.,《训练深度网络》(Training very deep networks)(神经信息处理系统进展,(2015)),2368-2376
[31] 塞格迪,C。;刘伟。;贾毅。;Sermanet等人。;里德,S。;安格洛夫,D。;Erhan,D。;Vanhoucke,V。;Rabinovich,A.,深入卷积,(IEEE计算机视觉和模式识别会议论文集,(2015)),1-9
[32] 周,J。;Troyanskaya,O.G.,用基于深度学习的序列模型预测非编码变体的效果,《自然方法》,12,10,931-934,(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。