×

通过端到端训练实现紧凑型神经网络:具有自动秩确定功能的贝叶斯张量方法。 (英语) Zbl 1508.68289号

摘要:训练后模型压缩可以降低深度神经网络的推理成本,但未压缩训练仍会消耗巨大的硬件资源和能量。为了在边缘设备上实现低能量训练,迫切需要以低存储成本从头开始直接训练紧凑的神经网络。低秩张量分解是降低大型神经网络存储和计算成本的有效方法。然而,直接训练低秩张量化神经网络是一项非常具有挑战性的任务,因为很难先验地确定合适的张量秩,而张量秩控制着模型的复杂性和准确性。本文提出了一种新的端到端低阶张量训练框架。我们首先开发了一个贝叶斯模型,该模型支持各种低秩张量格式(例如CANDECOMP/PARAFAC、Tucker、张量应变和张量应变矩阵),并在训练期间通过自动秩确定来减少神经网络参数。然后我们开发了一个定制的贝叶斯解算器来训练大规模张量神经网络。我们的训练方法在实验中显示出数量级的参数减少和很少的精度损失(甚至更好的精度)。在一个模型参数超过(4.2×10^9)的大型深度学习推荐系统上,我们的方法可以在训练过程中将参数数量自动减少到(1.6×10^5)次(即减少(2.6×10^4)次),同时达到几乎相同的精度。代码位于https://github.com/colehawkins/bayesian-sensor-rank终止.

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] J.M.Alvarez和M.Salzmann,深层网络的压缩软件训练,《神经信息处理系统会议记录》,2017年,第856-867页。
[2] C.Blundell、J.Cornebise、K.Kavukcuoglu和D.Wierstra,神经网络中的权重不确定性,《机器学习国际会议论文集》,2015年,第1613-1622页。
[3] G.G.Calvi、A.Moniri、M.Mahfouz、Q.Zhao和D.P.Mandic,《通过塔克张量层对深层神经网络进行压缩和解释》,预印本,arXiv:1903.06133[cs.LG],2019年。
[4] J.D.Carroll和J.-J.Chang,通过“Eckart-Young”分解的N向泛化分析多维尺度中的个体差异,《心理测量学》,35(1970),第283-319页·Zbl 0202.19101号
[5] C.M.Carvalho、N.G.Polson和J.G.Scott,《稀疏信号的马蹄形估计器》,《生物统计学》,97(2010),第465-480页·Zbl 1406.62021号
[6] C.Cui、C.Hawkins和Z.Zhang,生成紧凑不确定性量化和深度学习模型的张量方法,《计算机辅助设计国际会议论文集》,2019年,第1-6页。
[7] C.Deng,F.Sun,X.Qian,J.Lin,Z.Wang,B.Yuan,TIE:深层神经网络的高效能张量训练推理机,《ACM/IEEE计算机体系结构国际研讨会论文集》,2019年,第264-278页。
[8] S.Gandy、B.Recht和I.Yamada,通过凸优化实现张量补全和低阶张量恢复,《反问题》,27(2011),025010·Zbl 1211.15036号
[9] T.Garipov、D.Podoprikhin、A.Novikov和D.Vetrov,《终极张力化:压缩卷积层和FC层相似》,预印本,arXiv:1611.03214[cs.LG],2016年。
[10] S.Ghosh、J.Yao和F.Doshi-Velez,通过马蹄形先验在贝叶斯神经网络中的模型选择,J.Mach。学习。决议,20(2019),第1-46页·Zbl 1433.68392号
[11] D.Goldfarb和Z.Qin,稳健低阶张量恢复:模型和算法,SIAM J.矩阵分析。申请。,35(2014年),第225-253页·Zbl 1296.65086号
[12] R.Guhaniyogi、S.Qamar和D.B.Dunson,贝叶斯张量回归,J.Mach。学习。第18号决议(2017年),第2733-2763页·Zbl 1440.62253号
[13] S.Gupta、A.Agrawal、K.Gopalakrishnan和P.Narayanan,《有限数值精度的深度学习》,《机器学习国际会议论文集》,2015年,第1737-1746页。
[14] J.Gusak、M.Kholiavchenko、E.Ponomarev、L.Markeeva、I.Oseledets和A.Cichocki,MUSCO:神经网络的多级压缩,预印本,arXiv:1903.09973[cs.LG],2019年。
[15] S.Han、H.Mao和W.J.Dally,《深度压缩:用修剪、训练量化和哈夫曼编码压缩深度神经网络》,预印本,arXiv:1510.00149[cs.CV],2015年。
[16] S.J.Hanson和L.Y.Pratt,《最小网络构建偏差与反向传播的比较》,《神经信息处理系统会议论文集》,1989年,第177-185页。
[17] R.A.Harshman和M.E.Lundy,PARAFAC:平行因子分析,计算。统计师。数据分析。,18(1994年),第39-72页·Zbl 0825.62518号
[18] C.Hawkins和Z.Zhang,稳健流张量因式分解和完备的变分贝叶斯推断,载《2018年IEEE国际数据挖掘会议论文集》,IEEE,2018年,第1446-1451页。
[19] C.Hawkins和Z.Zhang,具有自动秩选择的贝叶斯张量神经网络,神经计算,453(2021),第172-180页。
[20] He Z.,S.Gao,L.Xiao,D.Liu,H.He和D.Barber,《更宽、更深、更便宜、更快:用于序列学习的张量LSTM》,《神经信息处理系统会议论文集》,30(2017),第1-11页。
[21] G.Hinton、O.Vinyals和J.Dean,《在神经网络中提取知识》,预印本,arXiv:1503.02531[stat.ML],2015。
[22] M.D.Hoffman、D.M.Blei、C.Wang和J.Paisley,《随机变分推理》,J.Mach。学习。Res.,14(2013),第1303-1347页·Zbl 1317.68163号
[23] O.Hrinchuk、V.Khrulkov、L.Mirvakhabova、E.Orlova和I.Oseledets,张力嵌入层,《2020年自然语言处理实证方法会议论文集:结果》,2020年,第4847-4860页。
[24] I.Hubara、M.Courbariaux、D.Soudry、R.El-Yaniv和Y.Bengio,量化神经网络:用低精度权重和激活训练神经网络,J.Mach。学习。第18号决议(2017年),第6869-6898页·Zbl 1468.68183号
[25] M.I.Jordan、Z.Ghahramani、T.S.Jaakkola和L.K.Saul,《图形模型变分方法简介》,马赫。学习。,37(1999),第183-233页·Zbl 0945.68164号
[26] V.Khrulkov、O.Hrinchuk、L.Mirvakhabova和I.Oseledets,《有效模型压缩的张力嵌入层》,预印本,arXiv:1901.10787[cs.CL],2019年。
[27] Y.-D.Kim、E.Park、S.Yoo、T.Choi、L.Yang和D.Shin,《用于快速和低功耗移动应用的深度卷积神经网络压缩》,预印本,arXiv:1511.06530[cs.CV],2015年。
[28] A.Kolbeinsson、J.Kossaifi、Y.Panagakis、A.Bulat、A.Anandkumar、I.Tzoulaki和P.M.Matthews,健壮学习的Tensor辍学,IEEE J.Sel。顶部。信号处理。,15(2021年),第630-640页。
[29] T.G.Kolda和B.W.Bader,张量分解和应用,SIAM Rev.,51(2009),第455-500页·Zbl 1173.65029号
[30] J.Kossaifi、A.Toisoul、A.Bulat、Y.Panagakis、T.M.Hospedales和M.Pantic,分解高阶CNN及其在时空情绪估计中的应用,《IEEE/CVF计算机视觉和模式识别会议论文集》,2020年,第6060-6069页。
[31] U.Koöster,T.Webb,X.Wang,M.Nassar,A.K.Bansal,W.Constable,O.Elibol,S.Gray,S.Hall,L.Hornof,et al.,Flexpoint:深层神经网络有效训练的自适应数字格式,《神经信息处理系统会议论文集》,2017年,第1742-1752页。
[32] B.Lakshminarayanan、A.Pritzel和C.Blundell,使用深度集成进行简单且可扩展的预测不确定性估计,《神经信息处理系统会议记录》,2017年,第6402-6413页。
[33] V.Lebedev、Y.Ganin、M.Rakhuba、I.Oseledets和V.Lempitsky,使用微调CP-分解加速卷积神经网络,预印本,arXiv:1412.6553[cs.CV],2014年。
[34] Y.LeCun、J.S.Denker和S.A.Solla,最佳脑损伤,《神经信息处理系统会议记录》,1990年,第598-605页。
[35] Liu Q.和Wang D.,Stein变分梯度下降:通用贝叶斯推理算法,《神经信息处理系统会议论文集》,2016年,第2378-2386页。
[36] X.Ma,P.Zhang,S.Zhanng,N.Duan,Y.Hou,M.Zhou和D.Song,语言建模的张量化变换器,《神经信息处理系统会议论文集》,2019年,第2232-2242页。
[37] S.Nakajima和M.Sugiyama,经验MAP和经验部分贝叶斯分析:它们能替代变分贝叶斯吗?,《人工智能与统计国际会议论文集》,2014年,第20-28页。
[38] M.Naumov、D.Mudigere、H.-J.M.Shi、J.Huang、N.Sundaraman、J.Park、X.Wang、U.Gupta、C.-J.Wu、A.G.Azzolini等人,《个性化和推荐系统的深度学习推荐模型》,预印本,arXiv:1906.00091[cs.IR],2019年。
[39] R.M.Neal,神经网络贝叶斯学习,Springer Science&Business Media,纽约,2012年。
[40] K.Neklyudov、D.Molchanov、A.Ashukha和D.P.Vetrov,通过对数正态乘性噪声进行结构化贝叶斯修剪,《神经信息处理系统会议记录》,2017年,第6775-6784页。
[41] A.Novikov、D.Podoprikhin、A.Osokin和D.P.Vetrov,《神经信息处理系统会议论文集》,2015年,第442-450页。
[42] I.V.Oseledets,张量-应变分解,SIAM J.Sci。计算。,33(2011年),第2295-2317页·Zbl 1232.15018号
[43] T.N.Sainath、B.Kingsbury、V.Sindhwani、E.Arisoy和B.Ramabhadran,《高维输出目标深度神经网络训练的低秩矩阵分解》,IEEE声学、语音和信号处理国际会议论文集,2013年,第6655-6659页。
[44] K.Simonyan和A.Zisserman,《大尺度图像识别的甚深卷积网络》,预印本,arXiv:1409.1556[cs.CV],2014年。
[45] E.Strubell、A.Ganesh和A.McCallum,《NLP深度学习的能源和政策考虑》,《计算语言学协会年会论文集》,2019年,第3645-3650页。
[46] X.Sun、N.Wang、C.-Y.Chen、J.Ni、A.Agrawal、X.Cui、S.Venkataramani、K.El Maghraoui、V.V.Srinivasan和K.Gopalakrishnan,深度神经网络的超低精度4位训练,《神经信息处理系统会议论文集》,33(2020)。
[47] V.Sze、Y.-H.Chen、J.Emer、A.Suleiman和Z.Zhang,《机器学习的硬件:挑战和机遇》,《IEEE定制集成电路会议论文集》,2017年,第1-8页。
[48] S.Teerapittayanon、B.McDanel和H.-T.Kung,《云、边缘和终端设备上的分布式深层神经网络》,《分布式计算系统国际会议论文集》,2017年,第328-339页。
[49] L.R.Tucker,《关于三模式因子分析的一些数学注释》,《心理测量学》,31(1966),第279-311页。
[50] M.P.Wand、J.T.Ormerod、S.A.Padoan和R.Fruíhwirth,《精细分布的平均场变分贝叶斯》,贝叶斯分析。,6(2011),第847-900页·兹比尔1330.62158
[51] W.Wen、C.Wu、Y.Wang、Y.Chen和H.Li,深度神经网络中的学习结构稀疏性,《神经信息处理系统会议论文集》,29(2016),第2074-2082页。
[52] 薛军、李军和龚永元,用奇异值分解重构深层神经网络声学模型,《国际演讲会论文集》,2013年,第2365-2369页。
[53] K.Zhang,C.Hawkins,X.Zhang、C.Hao和Z.Zhang.,《超记忆减量On-FPGA训练:一种低精度张量方法》,载于《ICLR硬件感知高效训练研讨会论文集》(2021年)。
[54] K.Zhang,X.Zhang和Z.Zhang.,FPGA上的塔克张量分解,《2019年计算机辅助设计国际会议论文集》,第1-8页。
[55] Q.Zhao,L.Zhang和A.Cichocki,不完全张量的贝叶斯CP因式分解与自动秩确定,IEEE Trans。模式分析。机器。智力。,37(2015),第1751-1763页。
[56] Q.Zhao,G.Zhou,L.Zhang,A.Cichocki,and S.-I.Amari,不完全多路数据的Bayesian稳健张量因式分解,IEEE Trans。神经网络。学习。系统。,27(2016),第736-748页。
[57] P.Zhen,B.Liu,Y.Cheng,H.B.Chen和H.Yu,移动设备上深度张量压缩ISTM神经网络快速视频面部表情识别,第四届ACM/IEEE边缘计算研讨会论文集,2019年,第298-300页。
[58] A.Zhou,A.Yao,Y.Guo,L.Xu和Y.Chen,增量网络量化:朝向低精度权重的无损CNN,预印本,arXiv:1702.03044[cs.CV],2017年。
[59] H.Zhou、L.Li和H.Zhu,张量回归在神经影像数据分析中的应用,J.Amer。统计师。协会,108(2013),第540-552页·Zbl 06195959号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。