×

多目标稀疏神经网络的联合结构和参数优化。 (英语) Zbl 1520.68148号

摘要:本文针对网络剪枝问题,提出了一种基于多目标优化模型的联合训练方法。大多数最先进的剪枝方法都依赖用户经验来选择权重矩阵或张量的稀疏比,因此使用不合适的用户定义参数会严重降低性能。此外,由于低效的连接体系结构搜索,网络可能较差,尤其是在网络高度稀疏的情况下。研究表明,在反向传播(BP)训练过程的早期阶段,网络模型可以保持稀疏特性,而基于进化计算的算法可以准确地发现具有满意网络性能的连接结构。特别地,我们建立了一个用于网络剪枝的多目标稀疏模型,并提出了一种结合BP训练和两种改进的多目标进化算法(MOEA)的有效方法。BP算法收敛速度快,两个MOEA可以分别搜索最优稀疏结构和细化权重。实验也证明了该算法的优点。我们表明,与现有方法相比,该方法可以获得理想的Pareto前沿(PF),从而获得更好的修剪结果,尤其是在网络结构高度稀疏的情况下。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90C29型 多目标规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abadi,M.,Agarwal,A.,Barham,P.,Brevdo,E.,Chen,Z.,Citro,C.,…Zheng,X.(2015)。Tensorflow:异构系统上的大规模机器学习。tensorflow.org。
[2] Chen,T.、Goodfellow,I.J.和Shlens,J.(2015)。Net2net:通过知识传授加速学习。arXiv:1511.05641。
[3] Chen,W.、Wilson,J.T.、Tyree,S.、Weinberger,K.Q.和Chen,Y.(2015)。使用哈希技巧压缩神经网络。《机器学习国际会议论文集》(第2285-2294页)。纽约:ACM。谷歌学者
[4] Cheng,Y.、Wang,D.、Zhou,P.和Zhang,T.(2018)。深度神经网络的模型压缩和加速:原理、进展和挑战。IEEE信号处理杂志,35(1),126-136。谷歌学者搜索ADS
[5] Dai,X.、Yin,H.和Jha,N.K.(2019年)。Nest:一种基于增长与修剪范式的神经网络合成工具。IEEE计算机汇刊,68(10),1487-1497。谷歌学者搜索ADS·Zbl 07159068号
[6] Deb,K.和Goyal,M.(1996年)。用于工程设计的组合遗传自适应搜索(GeneAS)。计算机科学与信息学,26(4),30-45。谷歌学者
[7] Deb,K.、Pratap,A.、Agarwal,S.和Meyarivan,T.(2002年)。一种快速的精英多目标遗传算法:NSGA-II。IEEE进化计算汇刊,6(2),182-197。谷歌学者搜索ADS
[8] Denil,M.、Shakibi,B.L.、Dinh,M.R.和de Freitas,N.(2013年)。预测深度学习中的参数。C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,26(第2148-2156页)。纽约州红钩市:Curran。谷歌学者
[9] Denton,E.L.、Zaremba,W.、Bruna,J.、LeCun,Y.和Fergus,R.(2014)。利用卷积网络中的线性结构进行有效评估。Z.Ghahramani、M.Welling、C.Cortes、N.Lawrence和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,27(第1269-1277页)。纽约州红钩市:Curran。谷歌学者
[10] Duchi,J.、Hazan,E.和Singer,Y.(2010年)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12,257-269。谷歌学者·Zbl 1280.68164号
[11] Girshick,R.、Donahue,J.、Darrell,T.和Malik,J.(2014)。丰富的特征层次用于准确的对象检测和语义分割。《IEEE计算机视觉和模式识别会议论文集》(第580-587页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[12] 龚,M.,刘,J.,李,H.,蔡,Q.,&苏,L.(2015)。深度神经网络的多目标稀疏特征学习模型。IEEE神经网络和学习系统汇刊,26(12),3263-3277。谷歌学者搜索ADS
[13] Gong,Y.、Liu,L.、Tran,J.、Yang,M.和Bourdev,L.(2014)。使用矢量量化压缩深度卷积网络。Xiv:1412.6115。
[14] Goodfellow,I.、Bengio,Y.和Courville,A.(2016)。深度学习。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1373.68009号
[15] Han,S.、Pool,J.、Tran,J.和Dally,W.(2015)。学习有效神经网络的权重和连接。C.Cortes、N.Lawrence、D.Lee、M.Sugiyama和R.Garnett(编辑),《神经信息处理系统的进展》,28(第1135-1143页)。纽约州红钩市:Curran。谷歌学者
[16] Hinton,G.、Deng,L.、Yu,D.、Dahl,G.E.、Mohamed,A.、N.Jaitly、…Kingsbury,B.(2012)。语音识别声学建模的深度神经网络:四个研究小组的共同观点。IEEE信号处理杂志,29(6),82-97。谷歌学者搜索ADS
[17] Hinton,G.E.、Srivastava,N.、Krizhevsky,A.、Sutskever,I.和Salakhutdinov,R.R.(2012)。通过防止特征检测器的协同适应来改进神经网络。arXiv:1207.0580·Zbl 1318.68153号
[18] Hinton,G.、Vinyals,O.和Dean,J.(2015)。在神经网络中提取知识。arXiv:1503.02531。
[19] Howard,A.G.、Zhu,M.、Chen,B.、Kalenichenko,D.、Wang,W.、Weyand,T.、Andreetto,M.和Adam,H.(2017)。MobileNets:用于移动视觉应用的高效卷积神经网络。arXiv:1704.04861。
[20] Huang,J.、Sun,W.和Huang等人(2020年)。基于多目标进化算法的深度神经网络压缩学习。神经计算,378260-269。谷歌学者搜索ADS
[21] Iandola,F.N.、Han,S.、Moskewicz,M.W.、Ashraf,K.、J.Dally,W.和Keutzer,K..(2016年)。SqueezeNet:AlexNet级精度,参数少(50倍),模型大小为0.5mb。arXiv:1602.07360。谷歌学者
[22] Ioffe,S.和Szegedy,C.(2015)。批量规范化:通过减少内部协变量偏移来加速深层网络培训。机器学习国际会议论文集。纽约:ACM。谷歌学者
[23] Jin,Y.(2005)。进化计算中适应度近似的综合综述。软计算,9(1),3-12。谷歌学者搜索ADS·Zbl 1059.68089号
[24] Karpathy,A.、Toderici,G.、Shetty,S.、Leung,T.、Sukthankar,R.和Li,F.F.(2014)。基于卷积神经网络的大尺度视频分类。《IEEE计算机视觉和模式识别会议论文集》(第1725-1732页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[25] Kim,Y.-D.、Park,E.、Yoo,S.、Choi,T.、Yang,L.和Shin,D.(2016)。用于快速和低功耗移动应用的深度卷积神经网络压缩。《学习代表国际会议论文集》。威斯康星州麦迪逊:无所不在。谷歌学者
[26] Kingma,D.P.和Ba,J.(2015)。亚当:一种随机优化方法。《学习代表国际会议论文集》。威斯康星州麦迪逊:无所不在。谷歌学者
[27] Krizhevsky,A.(2009)。从微小图像中学习多层特征(技术报告)。多伦多大学。
[28] Krizhevsky,A.、Sutskever,I.和Hinton,G.(2012年)。使用深度卷积神经网络进行ImageNet分类。F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第1097-1105页)。纽约州红钩市:Curran。谷歌学者
[29] LeCun,Y.、Bengio,Y.和Hinton,G.E.(2015)。深度学习。《自然》,521(7553),436-444。谷歌学者搜索ADS
[30] Li,H.、Kadav,A.、Durdanovic,I.、Samet,H.和Graf,H.P.(2017)。修剪过滤器以实现高效ConvNets。《学习代表国际会议论文集》。威斯康星州麦迪逊:无所不在。谷歌学者
[31] Liu,J.、Gong,M.、Miao,Q.、Wang,X.和Li,H.(2018)。基于多目标优化的深度神经网络结构学习。IEEE神经网络和学习系统汇刊,29(6),2450-2463。谷歌学者搜索ADS
[32] Liu,Z.、Sun,M.、Zhou,T.、Huang,G.和Darrell,T.(2019)。重新思考网络修剪的价值。《学习代表国际会议论文集》。威斯康星州麦迪逊:无所不在。谷歌学者
[33] Molchanov,P.、Mallya,A.、Tyree,S.、Frosio,I.和Kautz,J.(2019年)。神经网络修剪的重要性估计。在IEEE计算机视觉和模式识别会议论文集上。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[34] Oord,A.V.D.,S.Dieleman,H.Zen,K.S.,Vinyals,O.,A.Graves,N.K.,Senior,A.,&Kavukcuoglu,K.(2016)。Wavenet:原始音频的生成模型。arXiv:1609.03499,99。
[35] Rachmawati,L.和Srinivasan,D.(2009年)。多目标进化算法,在Pareto前沿的膝盖处具有可控的焦点。IEEE进化计算汇刊,13(4),810-824。谷歌学者搜索ADS
[36] Rumelhart,D.E.、Hinton,G.E.和Williams,R.J.(1986年)。通过反向传播错误学习表示。《自然》,323533-536。谷歌学者搜索ADS·Zbl 1369.68284号
[37] 斯科皮尔,V.和坎巴,S.(2011)。网络元件控制的反向传播和遗传算法。IEEE国际电信和信号处理会议论文集。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[38] Snoek,J.、Larochelle,H.和Adams,R.P.(2012)。机器学习算法的实用贝叶斯优化。F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,25(第2951-2959页)。纽约州红钩市:Curran。谷歌学者
[39] Srinivas,N.和Deb,K.(1995年)。遗传算法中使用非支配排序的多目标优化。进化计算,2(3),221-248。谷歌学者搜索ADS
[40] Storn,R.和Price,K.(1997年)。差分进化:一种简单有效的启发式算法,用于连续空间上的全局优化。《全局优化杂志》,11,341-359。谷歌学者搜索ADS·Zbl 0888.90135号
[41] Xiao,H.、Rasul,K.和Vollgraf,R.(2017)。Fashion-MNIST:用于基准机器学习算法的新型图像数据集。arXiv:1708.07747。
[42] Xiong,W.,Droppo,J.,Huang,X.,Seide,F.,Seltzer,M.,Stolcke,A.,Yu,D.,&Zweig,G.(2016)。在会话语音识别中实现人类对等。《IEEE/ACM音频语音和语言处理学报》(第99页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[43] Xu,Q.,&Pan,G.(2017)。稀疏连接:在完全连接的层上规范CNN。《电子快报》,53(18),1246-1248。谷歌学者搜索ADS
[44] Zhang,C.,Lim,P.,Qin,A.K.,&Tan,K.C.(2017)。预测中剩余寿命估计的多目标深信度网络集成。IEEE神经网络和学习系统汇刊,28(10),2306-2318。谷歌学者搜索ADS
[45] Zhang,Q.,&Li,H.(2007)。MOEA/D:一种基于分解的多目标进化算法。IEEE进化计算汇刊,11(6),712-731。谷歌学者搜索ADS
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。