×

在多目标学习方法中通过剪枝权值实现高效稀疏的神经网络。 (英语) Zbl 1511.68238号

摘要:在设计和训练深层神经网络时,过度参数化和过度拟合是常见的问题,通常通过修剪和正则化策略来抵消。然而,与大多数学习方法相比,这些策略仍然是次要的,并且受到时间和计算密集型程序的影响。我们建议从多目标的角度来处理神经网络的训练预测精度网络复杂性作为双目标优化问题中的两个独立目标函数。作为一个示例,我们使用交叉熵作为预测准确性的度量,同时采用(l_1)-惩罚函数来评估网络参数的总成本(或复杂性)。后者与训练内剪枝方法相结合,该方法加强了复杂性降低,只需要边际额外计算成本。从多目标优化的角度来看,这是一个真正的大规模优化问题。我们比较了两种不同的优化范式:一方面,我们采用基于标量化的方法,将生物对象问题转化为一系列加权和标量化。另一方面,我们实现了随机多梯度下降算法,该算法无需或使用偏好信息即可生成单个Pareto最优解。在第一种情况下,通过使用自适应选择的尺度化参数进行重复训练,可以确定良好的膝关节解决方案。示例性卷积神经网络的数值结果证实,在精度损失可以忽略不计的情况下,大幅降低神经网络的复杂度是可能的。

MSC公司:

2017年10月68日 人工神经网络与深度学习
90立方厘米 随机规划
90C29型 多目标规划
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aneja,Y。;Nair,K.,Bicriteria运输问题,管理。科学。,25, 73-78 (1979) ·Zbl 0442.90056号
[2] 阿扎里安,K。;Bhalgat,Y。;Lee,J。;Blankevoort,T.,学习阈值修剪(2020),CoRR arXiv:2003.0075v1
[3] Bai,Y。;王玉霞。;Liberty,E.,ProxQuant:通过近端算子量化神经网络(2018),CoRR arXiv:1810.00861v3
[4] Bottou,L.,在线学习和随机近似,(神经网络在线学习(1999),剑桥大学出版社:美国剑桥大学出版社),9-42·Zbl 0968.68127号
[5] 博图,L。;柯蒂斯,F.E。;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号
[6] 卡巴列罗,R。;Cerda,E。;del Mar Munoz,M。;Rey,L.,随机方法与随机多目标规划问题中获得有效解的多目标方法,欧洲J.Oper。第158、3、633-648号决议(2004年)·兹比尔1056.90081
[7] Cholet,F.,Keras(2015),https://keras.io网址
[8] Das,I.,《基于法线-边界交点刻画帕累托曲线的“膝盖”》,结构。优化。,18, 2-3, 107-115 (1999)
[9] 阿尔伯克基·特谢拉(de Albuquerque Teixeira),R。;Braga,A.P。;高桥,R.H。;Saldanha,R.R.,用多目标优化改进MLP的泛化,神经计算(2000)·Zbl 1003.68627号
[10] 多姆汉,T。;斯普林伯格,J。;Hutter,F.,通过学习曲线外推加速深层神经网络的自动超参数优化,(第24届国际人工智能会议论文集。第24届人工智能国际会议论文集,IJCAI’15(2015),AAAI出版社),3460-3468
[11] Ehrgott,M.,《多准则优化》(2005),施普林格出版社·Zbl 1132.90001号
[12] 弗利格,J。;Svaiter,B.F.,多准则优化的最速下降法,数学。方法操作。决议,51,3,479-494(2000)·Zbl 1054.90067号
[13] 弗兰克尔,J。;Carbin,M.,《彩票假设:发现稀疏、可训练的神经网络》(2018),ICLR 2019 arXiv:1803.03635v5
[14] 古德费罗,I。;Y.本吉奥。;A.Courville,《深度学习》(2016),麻省理工学院出版社,http://www.deeplearningbook.org ·Zbl 1373.68009号
[15] Gui,S。;Wang,H。;Yu,C。;Yang,H。;王,Z。;Liu,J.,对抗训练模型压缩:当鲁棒性满足效率时(2019年),CoRR arXiv:1902.03538
[16] 郭毅。;姚,A。;Chen,Y.,高效DNN的动态网络手术(2016),CoRR arXiv:1608.04493
[17] 郭毅。;张,C。;张,C。;Chen,Y.,具有改进对抗鲁棒性的稀疏DNN(2018),CoRR arXiv:1810.09619v2
[18] 韩,S。;毛,H。;Dally,W.J.,《深度压缩:用剪枝、训练量化和哈夫曼编码压缩深度神经网络》(2015),CoRR arXiv:1510.00149v5
[19] 韩,S。;普尔,J。;Tran,J。;Dally,W.J.,《学习有效神经网络的权重和连接》,(《第28届神经信息处理系统国际会议论文集》,第28届国际神经信息处理会议论文集,NIPS’15(2015),麻省理工学院出版社:麻省理学学院出版社,美国马萨诸塞州剑桥),1135-1143
[20] 哈西比,B。;鹳,D。;Wolff,G.,最佳脑外科医生和一般网络修剪,(IEEE神经网络国际会议,第1卷(1993),IEEE),293-299
[21] 何毅。;Han,S.,ADC:利用强化学习实现自动深层压缩和加速(2018),CoRR arXiv:1802.03494
[22] 何毅。;张,X。;Sun,J.,《加速超深层神经网络的通道修剪》(2017),CoRR arXiv:1707.06168
[23] 辛顿,G。;维尼亚尔斯,O。;Dean,J.,《在神经网络中提取知识》(2015),CoRR arXiv:1503.02531
[24] 胡巴拉,I。;Courbariaux,M。;Soudry,D。;El-Yaniv,R。;Bengio,Y.,量化神经网络:用低精度权重和激活训练神经网络(2016),CoRR arXiv:1609.07061v1
[25] 多目标机器学习,(Jin,Y.,《计算智能研究》(2006),Springer)·Zbl 1129.68063号
[26] Jin,Y。;Sendhoff,B.,《基于Pareto的多目标机器学习:概述和案例研究》,IEEE Trans。系统。人类网络。C部分(申请和审查),38,397-415(2008)
[27] Kingma,D.P。;Ba,J.,Adam:随机优化方法,(国际学习表征会议(2014)),arXiv:1412.6980
[28] Krizhevsky,A.,《从微小图像中学习多层特征》(2009年),多伦多大学,https://www.cs.toronto.edu/kriz/cifar.html
[29] 库兹明,A。;Nagel,M。;Pitre,S。;Pendyam,S。;布兰科沃特,T。;Welling,M.,卷积神经网络结构化压缩的分类和评估(2019),CoRR-arXiv:1912.09802v1
[30] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE Proc,86,11,2278-2324(1998)
[31] LeCun,Y。;科尔特斯,C。;Burges,C.,MNIST手写数字数据库,第2卷(2010年),ATT实验室,http://Yann.Lecun.Com/Exdb/Mnist
[32] LeCun,Y。;Denker,J.S。;Solla,S.A.,《最佳脑损伤》(神经信息处理系统进展,第2卷(1990年)),598-605
[33] 李,H。;A.卡达夫。;杜丹诺维奇,I。;Samet,H.等人。;Graf,H.P.,高效ConvNets的修剪过滤器(2016),CoRR arXiv:1608.08710v3
[34] 刘,Z。;Sun,M。;周,T。;黄,G。;Darrell,T.,重新思考网络修剪的价值(2018),CoRR arXiv:1810.05270v2
[35] 刘,S。;Vicente,L.N.,《机器学习中的准确性和公平权衡:随机多目标方法》(2021),arXiv:2008.01132
[36] 刘,S。;Vicente,L.N.,《多目标优化的随机多梯度算法及其在监督机器学习中的应用》,Ann.Oper。决议(2021)
[37] 莱姆,S。;Choukse,E。;桑格纳,S。;Wen,W。;Sanghavi,S。;Erez,M.,PruneTrain:动态稀疏模型重构快速神经网络训练(2019),CoRR arXiv:1901.09290v4
[38] Mercier,Q。;波里昂,F。;Désidéri,J.-A.,随机多重梯度下降算法,欧洲J.Oper。Res.,271,3,808-817(2018)·Zbl 1403.90613号
[39] 莫尔恰诺夫,P。;Mallya,A。;泰利,S。;弗罗西奥,I。;Kautz,J.,神经网络修剪的重要性估计(2019),CoRR arXiv:1906.10771v1
[40] Mummadi,C.K。;Genewein,T。;张,D。;布罗克斯,T。;Fischer,V.,使用有界lp范数进行群选通和正则化的群剪枝,(德国模式识别会议。德国模式识别大会,GCPR。德国模式辨识大会。德国模式辨认大会,GC公关,LNCS(2019),Springer),139-155
[41] Ng、G.S。;Wahab,A。;施博士,神经网络剪枝的熵学习和相关准则,国际神经系统杂志。,2003年5月13日,291-305
[42] de Pádua Braga,A。;高桥,R.H.C。;Costa,医学硕士。;de Albuquerque Teixeira,R.,神经网络学习的多目标算法,(多目标机器学习(2006),Springer),151-171
[43] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。Stat.,第22卷,400-407(1951)·兹比尔0054.05901
[44] 萨克斯,J.,随机逼近过程的渐近分布,数学。Stat.,29,2,373-405(1958年)·Zbl 0229.62010号
[45] Simonyan,K。;Zisserman,A.,《用于大规模图像识别的极深卷积网络》(2014),CoRR arxiv:1409.1556
[46] Tang,J。;Shivanna,R。;赵,Z。;Lin,D。;辛格,A。;Chi,E.H。;Jain,S.,《理解和改进知识蒸馏》(2020年),CoRR arXiv:2002.03532v1
[47] Tieleman,T。;Hinton,G.,讲座6.5-rmsrop:将梯度除以最近震级的运行平均值。,(课程:机器学习神经网络(2012)),https://www.cs.toronto.edu/tijmen/csc321/slides/lecure_slides_lec6.pdf
[48] Tomonari Furukawa,C.J.K.L。;Michopoulos,J.G.,使用多目标优化进行参数识别的正则化,(Jin,Y.,多目标机器学习(2006),Springer),125-149
[49] Wang,Y。;张,X。;谢林。;周,J。;苏,H。;张,B。;胡,X.,从零开始修剪(2019),CoRR arXiv:1909.12579v1
[50] Yang,H。;Wen,W。;Li,H.,DeepHoyer:学习具有可微尺度变稀疏性测度的稀疏神经网络(2019),CoRR arXiv:1908.09979v2
[51] Ye,S。;Xu,K。;刘,S。;Cheng,H。;兰布列支,J.-H。;张,H。;周,A。;马凯(Ma,K.)。;Wang,Y。;Lin,X.,对抗性稳健性与模型压缩,或两者兼而有之?(2019),CoRR arXiv:1903.12561v4
[52] Yeom,S.-K。;Seegerer,P。;拉普什金,S。;魏德曼,S。;穆勒,K.-R。;Samek,W.,《通过解释进行修剪:深度神经网络修剪的新标准》(2019),CoRR arXiv:1912.08881v1
[53] 张,T。;马,X。;詹,Z。;周,S。;秦,M。;Sun,F。;Chen,Y.-K。;丁,C。;Fardad,M。;Wang,Y.,使用加权优化方法的统一DNN权重压缩框架(2020),CoRR arXiv:2004.05531v1
[54] 张,T。;Ye,S。;张凯。;Tang,J。;Wen,W。;Fardad,M。;Wang,Y.,使用交替方向乘数法的系统DNN权重修剪框架(2018),CoRR arXiv:1804.03294v3
[55] 朱,M。;Gupta,S.,“修剪还是不修剪:探索修剪对模型压缩的效果”(2017),CoRR arXiv:1710.01878v2
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。