×

一致稀疏深度学习:理论和计算。 (英语) Zbl 1514.68270号

摘要:深度学习是数据科学取得许多成功的引擎。然而,作为深度学习的基本模型,深度神经网络(DNN)往往过于参数化,给训练、预测和解释带来许多困难。我们提出了一种学习稀疏DNN的类频率方法,并在贝叶斯框架下证明了该方法的一致性:该方法可以学习最多具有(O(n/\log(n))个连接和良好的理论保证(如后验一致性)的稀疏DNN,变量选择一致性和渐近最优推广界。特别地,我们用混合高斯先验建立了稀疏DNN的后验一致性,表明可以使用基于拉普拉斯近似的边缘后验包含概率方法一致地确定稀疏DNN结构,并使用贝叶斯证据导出通过随机梯度下降等优化方法在不同初始化的多次运行中学习的稀疏DNN。对于大规模稀疏DNN,该方法的计算效率高于标准贝叶斯方法。数值结果表明,该方法可以很好地用于大规模网络压缩和高维非线性变量选择,这两方面都提高了可解释机器学习。

理学硕士:

68T07型 人工神经网络与深度学习
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
68瓦40 算法分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alvarez,J.M。;Salzmann,M.,学习深度网络中的神经元数量,神经信息处理系统进展,2270-2278(2016)
[2] Bauler,B。;Kohler,M.,“深度学习作为非参数回归中维数诅咒的补救方法”,《统计年鉴》,第47期,第2261-2285页(2019年)·Zbl 1421.62036号
[3] 布伦德尔,C。;科内比斯,J。;Kavukcuoglu,K。;Wierstra,D.,神经网络中的重量不确定性,371613-1622(2015)
[4] Bölcskei,H。;Grohs,P。;Kutyniok,G。;Petersen,P.,“稀疏连接深度神经网络的最佳逼近,SIAM数据科学数学杂志,1,8-45(2019)·Zbl 1499.41029号 ·doi:10.1137/18M118709X
[5] Chaudhari,P.、Choromanska,A.、Soatto,S.、LeCun,Y.、Baldassi,C.、Borgs,C.、Chayes,J.、Sagun,L.和Zecchina,R.(2016),“熵-SGD:偏向梯度下降到宽谷”,arXiv编号1611.01838·Zbl 1459.65091号
[6] Cheng,Y。;Yu,F.X。;费利斯,R.S。;库马尔,S。;Choudhary,A.N。;Chang,S.-F.,《用循环投影探索深网络中的参数冗余》,2015年IEEE国际计算机视觉会议(ICCV),2857-2865(2015)·doi:10.1109/ICCV.2015.327
[7] Denil,M.、Shakibi,B.、Dinh,L.、Ranzato,M.和de Freitas,N.(2013),《深度学习中的预测参数》,NIPS。
[8] Dettmers,T.和Zettlemoyer,L.(2019),“从无到有的稀疏网络:更快的训练而不损失表现”,arXiv编号1907.04840。
[9] 多布拉,A。;汉斯,C。;琼斯,B。;Nevins,J.R。;姚,G。;West,M.,“探索基因表达数据的稀疏图形模型,多元分析杂志,90,196-212(2004)·Zbl 1047.62104号 ·doi:10.1016/j.jmva.2004.02.009
[10] Feng,J.和Simon,N.(2017),“用于高维非参数回归和分类的稀疏输入神经网络”,arXiv编号1711.07592。
[11] Frankle,J.和Carbin,M.(2018),“彩票假设:发现稀疏、可训练的神经网络”,arXiv编号1803.03635。
[12] E.I.乔治。;McCulloch,R.E.,“通过吉布斯抽样进行变量选择,美国统计协会杂志,88,881-889(1993)·doi:10.1080/01621459.1993.10476353
[13] E.I.乔治。;McCulloch,R.E.,“贝叶斯变量选择方法”,《中国统计》,第7339-373页(1997年)·Zbl 0884.62031号
[14] Ghosal,S。;Ghosh,J.K。;Van Der Vaart,A.W.,“后验分布的收敛速度,统计年鉴,28500-531(2000)·Zbl 1105.62315号 ·doi:10.1214/aos/1016218228
[15] Ghosh,S.和Doshi-Velez,F.(2017),“通过马蹄先验在贝叶斯神经网络中选择模型”,arXiv编号1705.10388·Zbl 1433.68392号
[16] 格洛洛特,X。;Bengio,Y.,理解训练深度前馈神经网络的困难,249-256(2010)
[17] 格洛洛特,X。;Bordes,A。;Bengio,Y.,《深度稀疏整流器神经网络》,315-323(2011)
[18] Gomez,A.N.、Zhang,I.、Kamalakara,S.R.、Madaan,D.、Swersky,K.、Gal,Y.和Hinton,G.E.(2019年),“使用目标辍学学习稀疏网络”,arXiv编号1905.13678。
[19] 郭,C。;普莱斯,G。;孙,Y。;Weinberger,K.Q.,《关于现代神经网络的校准》,70,1321-1330(2017)
[20] Han,S.、Mao,H.和Dally,W.J.(2015),“深度压缩:使用修剪、训练量化和哈夫曼编码压缩深度神经网络”,arXiv编号1510.00149。
[21] 韩,S。;Pool,J。;Tran,J。;Dally,W.,《学习有效神经网络的权重和联系》,《神经信息处理系统的进展》,1135-1143(2015)
[22] He,K。;张,X。;任,S。;Sun,J.,《深入研究整流器:在图像网络分类方面超越人类水平的表现》,1026-1034(2015)
[23] He,K。;张,X。;任,S。;Sun,J.,图像识别的深度剩余学习,2016年IEEE计算机视觉和模式识别会议(CVPR),770-778(2016)
[24] Ishwaran,H。;Rao,J.S.,“尖峰和板形变量选择:频繁性和贝叶斯策略”,《统计年鉴》,第33期,第730-773页(2005年)·Zbl 1068.62079号 ·doi:10.1214/009053604000001147
[25] Izmailov,P.、Podoprikhin,D.、Garipov,T.、Vetrov,D.和Wilson,A.G.(2018),“平均权重导致更广泛的最优和更好的泛化”,arXiv编号1803.05407。
[26] 江伟,“高维广义线性模型的贝叶斯变量选择:拟合密度的收敛速度”,《统计年鉴》,351487-1511(2007)·Zbl 1123.62026号 ·doi:10.1214/00905360000000019
[27] 乔丹,M。;加赫拉马尼,Z。;Jaakkola,T。;Saul,L.,“图形模型的变分方法介绍,机器学习,37,183-233(1999)·Zbl 0945.68164号 ·doi:10.1023/A:1007665907178
[28] 卡斯,R。;蒂尔尼,L。;卡丹,J。;盖瑟,S。;霍奇斯,J。;出版社,S。;Zellner,A.,统计学和计量经济学中的贝叶斯和似然方法,基于拉普拉斯方法的后验扩张有效性,473-488(1990),阿姆斯特丹:北荷兰德(爱思唯尔科学出版社B.V.),阿姆斯特丹·Zbl 0734.62034号
[29] Kingma,D.P.和Ba,J.(2014),“Adam:随机优化方法”,arXiv编号1412.6980。
[30] Kleinberg,R。;李毅。;Yuan,Y.,另一种观点:新加坡元何时逃离当地极小值?,70 (2018)
[31] 科恩,R。;史密斯,M。;Chan,D.,“使用基函数线性组合的非参数回归,统计与计算,11,313-322(2001)·doi:10.1023/A:1011916902934
[32] Krizhevsky,A。;Hinton,G.,《从微小图像中学习多层特征》(2009),Citeser
[33] Liang,F.,“使用轮廓蒙特卡罗对贝叶斯神经网络进行证据评估,神经计算,17,1385-1410(2005)·Zbl 1061.62152号 ·doi:10.1162/0899766053630323
[34] 梁,F。;李强。;Zhou,L.,“用于选择药物敏感基因的贝叶斯神经网络,美国统计协会杂志,113955-972(2018)·Zbl 1402.62277号 ·doi:10.1080/01621459.2017.1409122
[35] 梁,F。;宋,Q。;Yu,K.,“高维广义线性模型的贝叶斯子集建模,美国统计协会杂志,108,589-606(2013)·Zbl 06195963号 ·doi:10.1080/01621459.2012.761942
[36] Lin,T。;Stich,美国。;巴巴拉。;德米特里夫·D·。;Jaggi,M.,《带反馈的动态模型修剪》,国际学习代表大会(ICLR)(2020年)
[37] 刘,B。;王,M。;Foroosh,H。;Tappen,M。;Pensky,M.,稀疏卷积神经网络,806-814(2015)
[38] 路易斯,C。;Ullrich,K。;Welling,M.,贝叶斯深度学习压缩,神经信息处理系统进展,3288-3298(2017)
[39] Ma,R.,Miao,J.,Niu,L.,and Zhang,P.(2019),“学习稀疏深层神经网络的变换L_1正则化”,arXiv编号1901.01021v1·Zbl 1434.68512号
[40] MacKay,D.J.,“应用于分类网络的证据框架,神经计算,4720-736(1992)·doi:10.1162/neco.1992.4.5.720
[41] McAllester,D.,PAC-Baysian模型平均,第十二届计算学习理论年会论文集,164-170(1999)
[42] McAllester,D.,“一些PAC-Baysian定理,机器学习,37,335-363(1999)·Zbl 0945.68157号
[43] 哈斯卡,H。;廖琦(Liao,Q.)。;Poggio,T.,《深度网络何时以及为什么比浅层网络更好?》?,第三十一届AAAI人工智能会议(2017年)
[44] Mnih,A。;Gregor,K.,《信念网络中的神经变异推理和学习》,32,II-1791-II-1799(2014)
[45] 莫卡努特区。;莫卡努,E。;斯通,P。;Nguyen,P.H。;Gibescu,M。;Liotta,A.,“受网络科学启发,具有自适应稀疏连接的人工神经网络的可扩展训练”,《自然通信》,9,2383(2018)·doi:10.1038/s41467-018-04316-3
[46] Montufar,G.F。;帕斯卡努,R。;Cho,K。;Bengio,Y.,《深度神经网络线性区域的数量》,《神经信息处理系统的进展》,2924-2932(2014)
[47] Mostafa,H.和Wang,X.(2019),“通过动态稀疏重参数化对深度卷积神经网络进行参数高效训练”,arXiv编号1902.05967。
[48] Nakkiran,P。;卡普伦,G。;班萨尔,Y。;Yang,T。;巴拉克,B。;Sutskever,I.,《深度双重下降:更大的模型和更多的数据伤害何处》,学习表征国际会议(2020年)·Zbl 07451713号
[49] Paszke,A。;毛重,S。;钦塔拉,S。;Chanan,G。;Yang,E。;德维托,Z。;林,Z。;Desmaison,A。;安提瓜,L。;Lerer,A.,NIPS 2017 Autodiff研讨会:基于梯度的机器学习软件和技术的未来,PyTorch中的自动区分(2017),加利福尼亚州长滩
[50] 彼得森,P。;Voigtlaender,F.,“使用深度ReLU神经网络对分段平滑函数的最佳逼近,神经网络,108296-330(2018)·Zbl 1434.68516号 ·doi:10.1016/j.neunet.2018.08.019
[51] 新几内亚波尔森。;Ročková,V.,《稀疏深度学习的后向专注》(2018年)
[52] 波尔赞贾尼,A.A。;姜瑞敏。;Petzold,L.R.,NIPS贝叶斯深度学习研讨会,提高贝叶斯推理神经网络的可识别性(2017)
[53] Ročková,V.,“具有连续尖峰和板条先验的稀疏信号的贝叶斯估计,统计年鉴,46,401-437(2018)·Zbl 1395.62230号 ·doi:10.1214/17-AOS1554
[54] 斯卡达潘,S。;Comminiello,D。;侯赛因,A。;Uncini,A.,“深度神经网络的组稀疏正则化,神经计算,241,81-89(2017)·doi:10.1016/j.neucom.2017.02.029
[55] Schmidt-Hieber,J.(2017),“利用ReLU激活函数的深度神经网络进行非参数回归”,arXiv编号1708.06633v2·Zbl 1459.62059号
[56] Simonyan,K.和Zisserman,A.(2014),“用于大尺度图像识别的极深卷积网络”,arXiv编号1409.1556。
[57] Song,Q.和Liang,F.(2017),“高维回归的近似最优贝叶斯收缩”,arXiv编号1712.08964·Zbl 07649255号
[58] Song,Q.,Sun,Y.,Ye,M.,and Liang,F.(2020),“用于大规模贝叶斯计算的扩展随机梯度MCMC算法”,arXiv编号2002.02919v1。
[59] 宋,Q。;吴,M。;Liang,F.,“种群与单链随机逼近MCMC算法的弱收敛速度,应用概率的进展,46,1059-1083(2014)·兹比尔1305.60065 ·doi:10.1239/aap/1418396243
[60] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,“辍学:防止神经网络过度拟合的简单方法”,《机器学习研究杂志》,1929-1958年,第15期(2014年)·Zbl 1318.68153号
[61] Telgarsky,M.(2017),“神经网络和有理函数”,arXiv编号1706.03301。
[62] Wager,S。;王,S。;Liang,P.S.,辍学训练作为适应性规则化,神经信息处理系统(NIPS)进展,351-359(2013)
[63] Yarotsky,D.,“深度ReLU网络近似的误差界,神经网络,94,103-114(2017)·Zbl 1429.68260号 ·doi:10.1016/j.neunet.2017.07.002
[64] Yoon,J。;Hwang,S.J。;Precup,D。;Teh,Y.W.,第34届机器学习国际会议论文集,《机器学习研究论文集》,70),深度神经网络的组合群和排他性稀疏性,3958-3966(2017),国际会议中心:澳大利亚悉尼国际会议中心
[65] Zhang,C.,Liao,Q.,Rakhlin,A.,Miranda,B.,Golowich,N.和Poggio,T.(2018),“深度学习理论IIb:SGD的优化特性”,arXiv编号1801.02254。
[66] Zhong,Z.,Zheng,L.,Kang,G.,Li,S.和Yang,Y.(2017),“随机擦除数据增强”,arXiv编号1708.04896。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。