×

基于灵敏度的神经网络可证明剪枝。 (英语) Zbl 1508.68277号

摘要:我们引入了一系列剪枝算法,以近似保持模型预测准确性的方式,对训练模型的参数进行稀疏化。我们的算法使用一小批输入点在网络参数上构建一个数据重要度抽样分布,并使用基于抽样或确定性剪枝过程,或两者的自适应混合来丢弃冗余权重。我们的方法同时具有计算效率、可证明的准确性,并且广泛适用于各种网络架构和数据分发。所提出的方法易于实现,并且可以很容易地集成到标准的修剪再训练管道中。我们提供的经验比较表明,无论原始网络是完全训练的还是随机初始化的,我们的算法都能可靠地生成高度压缩的网络,并且性能损失最小。

MSC公司:

68T05型 人工智能中的学习和自适应系统

关键词:

压缩;修剪;一般化
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] A.Aghasi、A.Abdi、N.Nguyen和J.Romberg,《Net-Trim:具有性能保证的深层神经网络的凸剪枝》,载于《神经信息处理系统的进展》,Curran Associates,2017年,第3180-3189页。
[2] A.Aghasi、A.Abdi和J.Romberg,深度神经网络的快速凸剪枝,SIAM J.Math。数据科学。,2(2020年),第158-188页·Zbl 1484.90072号
[3] Z.Alen Zhu、Y.Li和Y.Liang,《超参数化神经网络的学习和泛化,超越两层》,《神经信息处理系统进展》,Curran Associates,2019,第6158-6169页。
[4] J.M.Alvarez和M.Salzmann,深层网络的压缩软件训练,《神经信息处理系统的进展》,Curran Associates,2017年,第856-867页。
[5] S.Arora、S.Du、W.Hu、Z.Li和R.Wang,超参数双层神经网络优化和泛化的细粒度分析,《机器学习国际会议论文集》,2019年,第322-332页。
[6] S.Arora,R.Ge,B.Neyshabur,Y.Zhang,通过压缩方法实现深层网络的强泛化边界,预印本,arXiv:1802.052962018。
[7] C.Baykal、L.Liebenwein、I.Gilitschenski、D.Feldman和D.Rus,用于压缩神经网络并应用于泛化边界的数据相关核集,载于2019年国际学习表征会议论文集,https://openreview.net/forum?id=HJfwJ2A5KX。
[8] G.Bellec、D.Kappel、W.Maass和R.Legenstein,《深度改写:训练非常稀疏的深度网络》,预印本,arXiv:1711.051362017年。
[9] D.Blalock、J.J.Gonzalez Ortiz、J.Frankle和J.Guttag,神经网络修剪的状态是什么?,《机器学习与系统学报》,2020年,第129-146页。
[10] S.Boyd和L.Vandenberghe,《凸优化》,剑桥大学出版社,英国剑桥,2004年·Zbl 1058.90049号
[11] V.Braverman、D.Feldman和H.Lang,《离线和流媒体核心集构建的新框架》,预印本,arXiv:1612.008892016年。
[12] M.A.Carreira-Perpinaán和Y.Idelbayev,《神经网络修剪的学习-压缩算法》,《IEEE计算机视觉和模式识别会议论文集》,2018年,第8532-8541页。
[13] Y.Cheng、F.X.Yu、R.S.Feris、S.Kumar、A.Choudhary和S.-F.Chang,《循环投影深度网络中参数冗余的探索》,《IEEE计算机视觉国际会议论文集》,2015年,第2857-2865页。
[14] A.Choromanska、K.Choromanski、M.Bojarski、T.Jebara、S.Kumar和Y.LeCun,《具有结构化哈希投影的二进制嵌入》,《国际机器学习会议论文集》,2016年,第344-353页。
[15] M.Denil、B.Shakibi、L.Dinh、M.A.Ranzato和N.de Freitas,深度学习中的预测参数,摘自《神经信息处理系统的进展》,Curran Associates,2013年,第2148-2156页。
[16] E.Denton、W.Zaremba、J.Bruna、Y.LeCun和R.Fergus,利用卷积网络中的线性结构进行有效评估,CoRR,http://arxiv.org/abs/1404.0736, 2014.
[17] X.Dong、S.Chen和S.Pan,《通过分层优化脑外科医生学习修剪深层神经网络》,载于《神经信息处理系统进展》,Curran Associates,2017年,第4860-4874页。
[18] D.Feldman和M.Langberg,《近似和聚类数据的统一框架》,载于《第43届ACM计算理论研讨会论文集》,ACM,2011年,第569-578页·Zbl 1288.90046号
[19] T.Gale、E.Elsen和S.Hooker,《深度神经网络的稀疏状态》,预印本,arXiv:1902.095742019年。
[20] N.Gamboa、K.Kudrolli、A.Dhoot和A.Pedram,《Campfire:Compressible,Regulation-Free,Structured Sparse Training for Hardware Accelerators》,预印本,arXiv:2001.032532020年。
[21] B.Gao和L.Pavel,《Softmax函数的性质及其在博弈论和强化学习中的应用》,预印本,arXiv:1704.008052017年。
[22] Y.Guo、A.Yao和Y.Chen,高效DNN的动态网络手术,《神经信息处理系统的进展》,Curran Associates,2016年,第1379-1387页。
[23] S.Han、H.Mao和W.J.Dally,深度压缩:用修剪、训练量化和哈夫曼编码压缩深度神经网络,CoRR,http://arxiv.org/abs/1510.00149, 2015.
[24] K.He、X.Zhang、S.Ren和J.Sun,图像识别的深度残差学习,载于《IEEE计算机视觉和模式识别会议论文集》,2016年,第770-778页。
[25] G.Huang,Z.Liu,L.Van Der Maaten和K.Q.Weinberger,《紧密连接卷积网络》,《IEEE计算机视觉和模式识别会议论文集》,2017年,第4700-4708页。
[26] F.N.Iandola、S.Han、M.W.Moskewicz、K.Ashraf、W.J.Dally和K.Keutzer,SqueezeNet:AlexNet级精度,参数少50倍,模型大小小于0.5 MB,预打印,arXiv:1602.073602016。
[27] Y.Ioannou、D.Robertson、J.Shotton、R.Cipolla和A.Criminisi,《使用低库过滤器对CNN进行高效图像分类培训》,预印本,arXiv:1511.067442015年。
[28] M.Jaderberg、A.Vedaldi和A.Zisserman,用低阶扩展加速卷积神经网络,预印本,arXiv:1405.38662014。
[29] Y.-D.Kim、E.Park、S.Yoo、T.Choi、L.Yang和D.Shin,《快速和低功耗移动应用的深度卷积神经网络压缩》,预印本,arXiv:1511.06530,2015年。
[30] V.Lebedev和V.Lempitsky,使用群体性脑损伤的快速ConvNets,《计算机视觉和模式识别学报》,IEEE,2016年,第2554-2564页。
[31] Y.LeCun、L.Bottou、Y.Bengio和P.Haffner,基于梯度的学习应用于文档识别,Proc。IEEE,86(1998),第2278-2324页。
[32] Y.LeCun、J.S.Denker和S.A.Solla,最佳脑损伤,摘自《神经信息处理系统进展》,Curran Associates,1990年,第598-605页。
[33] N.Lee,T.Ajanthan和P.H.Torr,SNIP:基于连接灵敏度的单快照网络修剪,预打印,arXiv:1810.023402018。
[34] Y.Li、S.Gu、L.V.Gool和R.Timofte,卷积神经网络压缩的学习滤波器基础,《IEEE计算机视觉国际会议论文集》,2019年,第5623-5632页。
[35] L.Liebenwein、C.Baykal、B.Carter、D.Gifford和D.Rus,《修剪中的损失:修剪神经网络的影响超越测试准确性》,预印本,arXiv:2130030114021。
[36] L.Liebenwein、C.Baykal、H.Lang、D.Feldman和D.Rus,高效神经网络的可证明过滤器修剪,《学习表征国际会议论文集》,2020年,https://openreview.net/forum?id=BJxkOlSYDH。
[37] J.Lin、Y.Rao、J.Lu和J.Zhou,《运行时神经修剪》,摘自《神经信息处理系统的进展》,柯兰协会,2017年,第2178-2188页。
[38] S.Lin、R.Ji、Y.Li、C.Deng和X.Li,通过结构-稀疏正则滤波器修剪实现紧共轭网,IEEE Trans。神经网络学习系统,31(2019),第574-588页。
[39] T.Lin、S.U.Stich、L.Barba、D.Dmitriev和M.Jaggi,《带反馈的动态模型修剪》,载于《2020年学习表征国际会议论文集》,https://openreview.net/forum?id=SJem8lSFwB。
[40] C.Louizos、K.Ullrich和M.Welling,深度学习的贝叶斯压缩,摘自《神经信息处理系统进展》,Curran Associates,2017年,第3290-3300页。
[41] Y.Ma,R.Chen,W.Li,F.Shang,W.Yu,M.Cho,B.Yu,《用于压缩和加速深层神经网络的统一近似框架》,《第31届人工智能工具国际会议论文集》,IEEE,2019年,第376-383页。
[42] D.C.Mocanu、E.Mocanu,P.Stone、P.H.Nguyen、M.Gibescu和A.Liotta,《受网络科学启发,具有自适应稀疏连接的人工神经网络的可伸缩训练》,《自然通讯》。,9(2018),第1-12页。
[43] P.Molchanov、A.Mallya、S.Tyree、I.Frosio和J.Kautz,神经网络修剪的重要性估计,《IEEE计算机视觉和模式识别会议论文集》,2019年,第11264-11272页。
[44] P.Molchanov、S.Tyrie、T.Karras、T.Aila和J.Kautz,《修剪卷积神经网络用于资源高效推理》,预印本,arXiv:1611064402016。
[45] H.Mostafa和X.Wang,通过动态稀疏重参数化实现深度卷积神经网络的参数高效训练,《国际机器学习会议论文集》,PMLR,2019年,第4646-4655页。
[46] P.Nakkiran、G.Kaplun、Y.Bansal、T.Yang、B.Barak和I.Sutskever,《深层双重血统:更大的模型和更多的数据伤害何处》,载于《2020年国际学习代表大会论文集》,https://openreview.net/forum?id=B1g5sA4twr。 ·Zbl 07451713号
[47] B.Neyshabur、S.Bhojanapalli和N.Srebro,神经网络频谱正常化边界的PAC-bayesian方法,《学习表征国际会议论文集》,2018年,https://openreview.net/forum?id=Skz_WfbCZ。
[48] B.Neyshabur,Z.Li,S.Bhojanapalli,Y.LeCun,and N.Srebro,《过度参数化在神经网络泛化中的作用》,《学习表征国际会议论文集》,2019年,https://openreview.net/forum?id=BygfghAcYX。
[49] D.P.Palomar和J.R.Fonollosa,注水解决方案系列的实用算法,IEEE Trans。信号处理。,53(2005),第686-695页·Zbl 1370.94043号
[50] A.Pentina和S.Ben-David,基于概率学习理论的多任务学习,PMLR,2018年,第682-701页·兹比尔1405.68302
[51] 非线性激活(加权和,非线性)。https://pytorch.org/docs/stable/nn.html#non-线性激活加权非线性,2020年。
[52] A.Renda、J.Frankle和M.Carbin,《比较神经网络修剪中的微调和倒带》,《学习代表性国际会议论文集》,2020年,https://openreview.net/forum?id=S1gSj0NKvB。
[53] O.Russakovsky、J.Deng、H.Su、J.Krause、S.Satheesh、S.Ma、Z.Huang、A.Karpathy、A.Khosla、M.Bernstein、A.C.Berg和F.F.Li,《ImageNet大规模视觉识别挑战》,国际计算机杂志。视觉。,115(2015),第211-252页,https://doi.org/10.1007/s11263-015-0816-y。
[54] K.Simonyan和A.Zisserman,用于大规模图像识别的极深卷积网络,CoRR,http://arxiv.org/abs/1409.1556, 2014.
[55] V.Sindhwani、T.Sainath和S.Kumar,《小足迹深度学习的结构化转换》,摘自《神经信息处理系统的进展》,Curran Associates,2015年,第3088-3096页。
[56] A.Srinivasan,封装和覆盖整数程序的改进近似保证,SIAM J.Comput。,29(1999),第648-670页·Zbl 1032.90029号
[57] T.Suzuki、H.Abe和T.Nishimura,《非压缩网络的基于压缩的界限:大型可压缩深层神经网络的统一泛化误差分析》,载于《学习表征国际会议论文集》,2020年,https://openreview.net/forum?id=ByeGzlrKwH。
[58] C.Tai、T.Xiao、Y.Zhang和X.Wang,低秩正则化卷积神经网络,预印本,arXiv:1511.060672015。
[59] A.Torralba、R.Fergus和W.T.Freeman,8000万张微小图像:非参数对象和场景识别的大型数据集,IEEE Trans。模式分析。机器智能,30(2008),第1958-1970页。
[60] R.Vershynin,《高维概率:应用简介》,剑桥大学出版社,英国剑桥,2016年·Zbl 1430.60005号
[61] W.Wen,C.Wu,Y.Wang,Y.Chen,和H.Li,深度神经网络中的学习结构稀疏性,《神经信息处理系统的进展》,Curran Associates,2016年,第2074-2082页。
[62] 叶杰、卢晓鲁、林志忠、王志忠,《卷积层河道整治中小尺度无规范假设的再思考》,预印本,arXiv:1802.001242018。
[63] R.Yu、A.Li、C.-F.Chen、J.-H.Lai、V.I.Morariu、X.Han、M.Gao、C.-Y.Lin和L.S.Davis,NISP:使用神经元重要性得分传播修剪网络,《IEEE计算机视觉和模式识别会议论文集》,2018年,第9194-9203页。
[64] X.Yu、T.Liu、X.Wang和D.Tao,《关于通过低秩和稀疏分解压缩深度模型》,载于《IEEE计算机视觉和模式识别会议论文集》,2017年,第7370-7379页。
[65] S.Zagoruyko和N.Komodakis,《宽剩余网络》,预印本,arXiv:1605.071462016年。
[66] T.Zhang、S.Ye、K.Zhang,J.Tang、W.Wen、M.Fardad和Y.Wang,《使用交替方向乘数法的系统DNN权重修剪框架》,《欧洲计算机视觉会议论文集》,2018年,第184-199页。
[67] L.Zhao,S.Liao,Y.Wang,J.Tang,B.Yuan,低位移秩加权矩阵神经网络的理论性质,CoRR,http://arxiv.org/abs/1703.00144, 2017.
[68] W.Zhou、V.Veitch、M.Austern、R.P.Adams和P.Orbanz,《ImageNet Scale的非精确泛化界限:PAC-Baysian压缩方法》,《学习表征国际会议论文集》,2018年。
[69] 周瑜、张瑜、王瑜和田秋秋,通过递归贝叶斯剪枝加速CNN,《IEEE CVF国际计算机视觉会议论文集》,2019年,第3306-3315页。
[70] M.Zhu和S.Gupta,《修剪还是不修剪:探索修剪对模型压缩的效果》,预印本,arXiv:1710.018782017年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。