×

一种用于训练高度稀疏神经网络的脑启发算法。 (英语) 兹伯利07694468

摘要:稀疏神经网络在计算效率方面与密集型神经网络表现出相当的性能,因此吸引了越来越多的关注。剪枝稠密神经网络是获得稀疏神经网络最常用的方法之一。由于这种方法的训练成本很高,对于低资源设备来说是负担不起的,因此从零开始稀疏训练稀疏神经网络最近受到了关注。然而,现有的稀疏训练算法存在各种问题,包括在高稀疏场景下性能不佳、训练过程中计算密集梯度信息或纯随机拓扑搜索。本文受生物大脑进化和Hebbian学习理论的启发,提出了一种新的稀疏训练方法,该方法根据网络中神经元的行为演化稀疏神经网络,“基于余弦相似性和随机拓扑探索(CTRE)”通过向网络添加最重要的连接来进化稀疏神经网络的拓扑,而无需计算反向的密集梯度。我们在八个数据集(包括表格、图像和文本数据集)上进行了不同的实验,并证明了我们提出的方法在极稀疏神经网络中的性能优于几种最先进的稀疏训练算法,差距很大。Github上提供了实现代码。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abadi,M.、Agarwal,A.、Barham,P.、Brevdo,E.、Chen,Z.、Citro,C.、Corrado,G.S.、Davis,A.、Dean,J.、Devin,M.,Ghemawat,S.、Goodfellow,I.、Harp,A.、Irving,G.、Isard,M.和Jaa,Y.、Jozefowicz,R.、Kaiser,L.、Kudlur,M。。。郑旭(2015)。TensorFlow:异构系统上的大规模机器学习,2015年。https://www.tensorflow.org/。软件可从tensorflow.org获得。
[2] Arora,S.、Bhaskara,A.、Ge,R.和Ma,T.(2014)。学习一些深层表示的可证明边界。在机器学习国际会议上(第584-592页)。PMLR,2014年。
[3] Atashgahi,Z.,Sokar,G.,van der Lee,T.,Mocanu,E.,Mocanu,D.C.,Veldhuis,R.,&Pechenizkiy,M.(2022年)。快速而稳健的特征选择:针对自动编码器的节能稀疏训练的优势。机器学习(ECML-PKDD 2022期刊跟踪)1-38·Zbl 07510316号
[4] Bartunov,S.、Santoro,A.、Richards,B.、Marris,L.、Hinton,G.E.和Lillicrap,T.(2018年)。评估生物驱动的深度学习算法和架构的可扩展性。在第32届神经信息处理系统国际会议论文集(第9390-9400页)。
[5] Bellec,G.、Kappel,D.、Maass,W.和Legenstein,R.(2018年)。深度重组:训练非常稀疏的深度网络。在学习代表国际会议上。https://openreview.net/论坛?id=BJ_wN01C-.
[6] Brown,T.、Mann,B.、Ryder,N.、Subbiah,M.、Kaplan,J.D、Dhariwal,P.、Neelakantan,A.、Shyam,P.,Sastry,G.、Askell,A.、Agarwal,S.、Herbert-Voss,A.、Krueger,G.,Henighan,T.,Child,R.、Ramesh,A.、Ziegler,D.、Wu,J.、Winter,C。。。Amodei,D.(2020年)。语言模型的学习者很少。在Larochelle,H.、Ranzato,M.、Hadsell,R.、Balcan,M.F.和Lin,H(编辑),《神经信息处理系统的进展》(第33卷,第1877-1901页)。Curran Associates公司。https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-paper.pdf。
[7] Dai,X.、Yin,H.和Jha,N.K。(2019). Nest:一种基于增长与修剪范式的神经网络合成工具。IEEE计算机汇刊,68(10):1487-1497·Zbl 07159068号
[8] de Jorge,P.、Sanyal,A.、Behl,H.S、Torr,P.H.S.、Rogez,G.和Dokania,P.K。(2020). 渐进骨骼化:在初始化时从网络中修剪更多脂肪。arXiv预印本arXiv:2006.09081。
[9] Dettmers,T.和Zettlemoyer,L.(2019年)。从头开始稀疏网络:更快的训练而不损失性能。arXiv预打印arXiv:1907.04840。
[10] Evci,U.、Gale,T.、Menick,J.、Castro,P.S.和Elsen,E.(2020年)。操纵彩票:使所有彩票中奖。在机器学习国际会议上(第2943-2952页)。PMLR,2020年。
[11] Fanty,M.和Cole,R.(1991年)。语音识别。《神经信息处理系统进展》(第220-226页)。
[12] Frankle,J.和Carbin,M.(2018年)。彩票假设:寻找稀疏、可训练的神经网络。arXiv预印arXiv:1803.03635。
[13] Friston,K.,《大脑的层次模型》,《公共科学图书馆·计算生物学》,2008年第4期,第11页·doi:10.1371/journal.pcbi.1000211
[14] Gale,T.、Elsen,E.和Hooker,S.(2019年)。深度神经网络中的稀疏状态。arXiv预打印arXiv:1902.09574。
[15] Galke,L.和Scherp,A.(2021)。别忘了我:这是一个温和的提醒,提醒您注意文本分类的简单多层感知器基线。arXiv预印本arXiv:2109.03777。
[16] Gordon,A.、Eban,E.、Nachum,O.、Chen,B.、Wu,H.、Yang,T.-J.和Choi,E.(2018)。Morphnet:快速简单的资源约束深层网络结构学习。IEEE计算机视觉和模式识别会议记录(第1586-1595页)。
[17] Gorishniy,Y.、Rubachev,I.、Khrulkov,V.和Babenko,A.(2021)。回顾表格数据的深度学习模型。arXiv预印arXiv:2106.11959。
[18] Graves,A.、Mohamed,A.-R.和Hinton,G.(2013年)。基于深度递归神经网络的语音识别。2013年IEEE声学、语音和信号处理国际会议(第6645-6649页)。电气与电子工程师协会。
[19] AI高级专家组。(2020). 用于自我评估的可信人工智能(ALTAI)评估清单。
[20] Guo,Y.、Yao,A.和Chen,Y.(2016)。高效dnn的动态网络手术。《第30届神经信息处理系统国际会议论文集》,NIPS’16(第1387-1395页)。纽约州红钩:Curran Associates Inc.,国际标准图书编号9781510838819。
[21] Guyon,I.、Gunn,S.、Nikravesh,M.和Zadeh,L.A。(2008). 特征提取:基础与应用(第207卷)。斯普林格·Zbl 1114.68059号
[22] Han,J.、Kamber,M.和Pei,J.等人(2012年)。了解您的数据。数据挖掘(第39-82页)。荷兰:爱思唯尔阿姆斯特丹。
[23] Han,S.、Pool,J.、Tran,J.和Dally,W.J。(2015). 学习有效神经网络的权值和连接。第28届神经信息处理系统国际会议论文集(第1卷,第1135-1143页)。
[24] Hassibi,B.和Stork,D.G.(1993年)。网络修剪的二阶导数:最佳脑外科医生。《神经信息处理系统进展》(第164-171页)。
[25] Hebb,D.O.(2005)。行为的组织:一种神经心理学理论。心理学出版社。
[26] Hestness,J.、Narang,S.、Ardalani,N.、Diamos,G.、Jun,H.、Kianinejad,H.,Patwary,M.、Ali,M.,Yang,Y.和Zhou,Y.(2017年)。从经验上看,深度学习规模是可以预测的。arXiv预打印arXiv:1712.00409。
[27] Hoefler,T.、Alistarh,D.、Ben-Nun,T.,Dryden,N.和Pester,A.(2021)。深度学习中的稀疏性:神经网络中有效推理和训练的修剪和增长。arXiv预打印arXiv:2102.00554·Zbl 07626756号
[28] Jayakumar,S。;帕斯卡努,R。;Rae,J。;Osindero,S。;Elsen,E.,Top-kast:Top-k总是稀疏训练,神经信息处理系统进展,3320744-20754(2020)
[29] Jouppi,N.P、Young,C.、Patil,N.、Patterson,D.、Agrawal,G.、Bajwa,R.、Bates,S.、Bhatia,S.、Boden,N.和Borchers,A.等人(2017)。张量处理单元的数据中心内性能分析。第44届计算机体系结构国际研讨会论文集(第1-12页)。
[30] Junjie,L.,Zhe,X.,Runbin,S.,Cheung,R.C.C.,&So,H.K.H.(2019年)。动态稀疏训练:使用可训练的屏蔽层从头开始寻找有效的稀疏网络。在学习代表国际会议上。
[31] Kepner,J.和Robinett,R.(2019年)。Radix-net:深度神经网络的结构化稀疏矩阵。2019年,IEEE国际并行和分布式处理研讨会(IPDPSW)(第268-274页)。电气与电子工程师协会。
[32] Krizhevsky,A.和Hinton,G.等人(2009年)。从微小图像中学习多层特征。
[33] Kuriscak,E。;Marsalek,P。;斯特罗菲克,J。;Toth,PG,《人工神经网络中帮助学习的生物背景》,综述,神经计算,152,27-35(2015)·doi:10.1016/j.neucom.2014.11.022
[34] Kusupati,A.、Ramanujan,V.、Somani,R.、Wortsman,M.、Jain,P.、Kakade,S.和Farhadi,A.(2020年)。可学习稀疏性的软阈值权重重参数化。Hal,D.III,&Aarti,S.(编辑),第37届机器学习国际会议论文集(第119卷,第5544-5555页)。http://proceedings.mlr.press/v119/kusupati20a.html。
[35] Lang,K.(1995)。Newsweeder:学习过滤网络新闻。1995年机器学习论文集(第331-339页)。爱思唯尔。
[36] LeCun,Y.(1998)。手写数字的mnist数据库。http://yann。勒贡。com/exdb/mnist/。
[37] LeCun,Y.、Denker,J.S.和Solla,S.A.(1990年)。最佳脑损伤。《神经信息处理系统进展》(第598-605页)。
[38] Lee,N.、Ajanthan,T.和Torr,P.(2019年)。SNIP:基于连接敏感性的单快照网络修剪。在学习代表国际会议上。https://openreview.net/forum?id=B1VZqjAcYX。
[39] Li,B.,&Han,L.(2013)。文本分类的距离加权余弦相似性度量。在智能数据工程和自动学习国际会议上(第611-618页)。斯普林格。
[40] Li,Y.、Gu,S.、Mayer,C.、Gool,L.V.和Timofte,R.(2020)。组稀疏性:过滤器修剪和网络压缩分解之间的关键。《IEEE/CVF计算机视觉和模式识别会议论文集》(第8018-8027页)。
[41] Liang,M.和Hu,X.(2015)。用于目标识别的递归卷积神经网络。IEEE计算机视觉和模式识别会议记录(第3367-3375页)。
[42] 刘,C。;Wu,H.,基于平均梯度的信道修剪用于加速卷积神经网络,信号处理,15684-912019(2019)
[43] Liu,J.、Gong,M.和Miao,Q.(2017)。为无监督学习建模帮助学习规则。IJCAI(第2315-2321页)。
[44] Liu,S.、van der Lee,T.、Yaman,A.、Atashgahi,Z.、Ferrar,D.和Sokar,G.等人(2020年)。稀疏神经网络的拓扑见解。欧洲机器学习和数据库知识发现原理与实践会议记录(ECML PKDD)(第2006-14085页)。
[45] 刘,S。;哥伦比亚特区莫卡努;马塔瓦拉姆,ARR;裴,Y。;Pechenizkiy,M.,《商品硬件上一百多万人工神经元的稀疏进化深度学习,神经计算与应用》,33,7,2589-2604(2021)·doi:10.1007/s00521-020-05136-7
[46] Liu,S.、Mocanu,D.C.、Pei,Y.和Pechenizkiy,M.(2021b)。自私的稀疏训练。Marina,M.,&Tong,Z.(编辑),第38届机器学习国际会议论文集(第139卷,第6893-6904页)。https://proceedings.mlr.press/v139/liu21p.html。
[47] Liu,S.、Yin,L.、Mocanu,D.C.和Pechenizkiy,M.(2021c)。我们真的需要密集的参数化吗?稀疏训练中的实时过参数化。Marina,M.,&Tong,Z.(编辑),第38届机器学习国际会议论文集(第139卷,第6989-7000页)。https://proceedings.mlr.press/v139/liu21y.html。
[48] Louizos,C.、Welling,C.和Kingma,D.P.(2018年)。通过l0正则化学习稀疏神经网络。在学习代表国际会议上。https://openreview.net/forum?id=H1Y8hhg0b。
[49] 罗,C.,詹,J.,薛,X.,王,L.,任,R.,&杨,Q.(2018)。余弦归一化:在神经网络中使用余弦相似性代替点积。在人工神经网络国际会议上(第382-391页)。斯普林格。
[50] Masi,I.、Wu,Y.、Hassner,T.和Natarajan,P.(2018年)。深度人脸识别:一项调查。2018年第31届SIBGRAPI图形、图案和图像会议(SIBGRAPID)(第471-478页)。电气与电子工程师协会。
[51] 哥伦比亚特区莫卡努;莫卡努,E。;Nguyen,PH公司;Gibescu,M。;Liotta,A.,《受限boltzmann机器的拓扑洞察》,机器学习,104,2-3,243-270(2016)·Zbl 1386.68134号 ·doi:10.1007/s10994-016-5570-z
[52] 哥伦比亚特区莫卡努;莫卡努,E。;斯通,P。;Nguyen,PH;马德琳,G。;Antonio,L.,受网络科学启发,具有自适应稀疏连接的人工神经网络的可伸缩训练,自然通信,9,1,2383(2018)·doi:10.1038/s41467-018-004136-3
[53] 莫卡努,D.C.,莫卡努·E.,平托,T.,Curci,S.,Nguyen,P.H,Gibescu,M.,Ernst,D.,&Vale,Z.A。(2021). 可扩展高效代理的稀疏训练理论。《第20届国际自主代理和多代理系统会议论文集》(第34-38页)。
[54] Molchanov,Dmitry,A.和Arsenii,V.D.(2017)。变分丢失使深层神经网络稀疏化。在机器学习国际会议上(第2498-2507页)。PMLR公司。
[55] Molchanov,P.、Tyree,S.、Karras,T.、Aila,T.和Kautz,J.(2016)。修剪卷积神经网络以实现资源高效的推理。arXiv预打印arXiv:1611.06440。
[56] Molchanov,P.、Mallya,A.、Tyree,S.、Frosio,I.和Kautz,J.(2019年)。神经网络剪枝的重要性估计。6月,IEEE/CVF计算机视觉和模式识别(CVPR)会议论文集。
[57] Mostafa,H.和Wang,X.(2019年)。通过动态稀疏重参数化对深度卷积神经网络进行参数高效训练。在Kamalika,C.和Ruslan,S.(eds),《第36届机器学习国际会议论文集》(第97卷,第4646-4655页)。http://proceedings.mlr.press/v97/mostafa19a.html。
[58] Neyshabur,B.,Li,Z.,Bhojanapalli,S.,LeCun,Y.,&Srebro,N.(2019年)。超参数化在神经网络泛化中的作用。在学习代表国际会议上。https://openreview.net/forum?id=BygfghAcYX。
[59] Nguyen,H.V.和Bai,L.(2010年)。用于人脸验证的余弦相似性度量学习。在亚洲计算机视觉会议上(第709-720页)。斯普林格。
[60] Pogodin,R.、Mehta,Y.、Lillicrap,T.P.和Latham,P.E.(2021年)。朝向生物学上合理的卷积网络。arXiv预印本arXiv:2106.13031。
[61] Popov,S.、Morozov,S.和Babenko,A.(2019年)。用于表格数据深度学习的神经遗忘决策集成。arXiv预印arXiv:1909.06312。
[62] Raihan,M.A.,&Aamodt,T.M.(2020)《稀疏重量激活训练》。arXiv预印arXiv:2001.01969。
[63] Savarese,P.、Silva,H.和Maire,M.(2020年)。以连续稀疏赢得彩票。H.Larochelle、M.Ranzato、R.Hadsell、M.F.Balcan和H.Lin(编辑),《神经信息处理系统的进展》(第33卷,第11380-11390页)。Curran Associates公司。https://proceedings.neurips.cc/paper/2020/file/83004190b1793d7aa15f8d0d49a13eba-paper.pdf。
[64] Scellier,B.和Bengio,Y.(2016)。朝向一个生物学上合理的后盾。arXiv预打印arXiv:1602.05179。
[65] 舒马赫,T.(2021)。活连线神经网络:使一起发射的神经元连接在一起。arXiv预打印arXiv:2105.08111。
[66] 西多罗夫,G。;Gelbukh,A。;Gómez-Adorno,H。;Pinto,D.,《软相似性和软余弦度量:向量空间模型中特征的相似性》,Computacionón y Sistemas,18,3,491-504(2014)·doi:10.13053/cys-18-3-2043
[67] Sun,Y.,Wang,X.,&Tang,X..(2016)。稀疏化用于人脸识别的神经网络连接。IEEE计算机视觉和模式识别会议记录(第4856-4864页)。
[68] Tanaka,H。;库宁,D。;DL Yamins;Ganguli,S.,《通过迭代保存突触流修剪无任何数据的神经网络》,《神经信息处理系统进展》,33,6377-6389(2020)
[69] Tolstikhin,I.、Houlsby,N.、Kolesnikov,A.、Beyer,L.、Zhai,X.、Unterthiner,T.、Yung,J.、Keysers,D.、Uszkoreit,J.和Lucic,M.等人(2021年)。Mlp-mixer:全Mlp视觉架构。arXiv预打印arXiv:2105.01601。
[70] Wang,C.、Grosse,R.、Fidler,S.和Zhang,G.(2019a)。特征码:基于kronecker-factord特征基的结构化剪枝。在机器学习国际会议上(第6566-6575页)。PMLR。
[71] Wang,C.、Zhang,G.和Grosse,R.(2019年)。通过保持梯度流,在训练前挑选中奖彩票。
[72] Wen,W.,Wu,C.,Wang,Y.,Chen,Y.和Li,H.(2016)。学习深度神经网络中的结构化稀疏性。《第30届神经信息处理系统国际会议论文集》,NIPS’16(第2082-2090页)。纽约州Red Hook:Curran Associates Inc。
[73] Xia,P.,Zhang,L.,&Li,F.(2015)。用余弦相似集成学习相似性。信息科学,307:39-52。ISSN 0020-0255。https://doi.org/10.1016/j.ins.2015.024.24。统一资源定位地址https://www.sciencedirect.com/science/article/pii/S0020025515001243。 ·Zbl 1387.68201号
[74] Xiao,H.、Rasul,K.和Vollgraf,R.(2017)。Fashion-mnist:用于基准机器学习算法的新型图像数据集。
[75] Yang,J.等人。;萧,W。;江,C。;侯赛因,MS;穆罕默德,G。;Amin,SU,Ai-powered green cloud and data center,IEEE Access,74195-4203(2018)·doi:10.1109/ACCESS.2018.2888976
[76] 张,M.,张,F.,Lane,N.D.,Shu,Y.,Zeng,X.,&Fang,B.等人(2020年)。边缘计算时代的深度学习:挑战与机遇(p.2020)。雾计算:理论与实践。
[77] Zhu,M.和Gupta,S.(2017年)。修剪或不修剪:探索修剪对模型压缩的效果。arXiv预打印arXiv:1710.01878。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。