×

一种用于量化神经网络的贪婪算法。 (英语) Zbl 07415099号

摘要:我们提出了一种新的计算效率高的方法,用于量化预训练神经网络的权重,该方法具有足够的通用性,可以处理多层感知器和卷积神经网络。我们的方法以迭代方式确定量化层,无需复杂的重新训练。具体来说,我们使用贪婪的路径允许算法量化每个神经元或隐藏单元。这个简单的算法相当于运行一个动态系统,当训练数据为高斯时,我们证明它对于量化单层神经网络(或者,对于量化多层网络的第一层)是稳定的。我们表明,在这些假设下,量化误差随层的宽度(即其过参数化程度)而衰减。我们在多层网络上进行了数值实验,以说明我们的方法在MNIST和CIFAR10数据上的性能,以及使用ImageNet数据量化VGG16网络的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 米克洛斯·阿杰泰(Miklos Ajtai)。l2中的最短向量问题是随机约简的np-hard问题。1998年第30届ACM计算理论研讨会论文集,第10-19页·Zbl 1027.68609号
[2] 皮埃尔·巴尔迪和罗曼·弗什宁。前馈神经网络的能力。神经网络,116:288-31199·Zbl 1434.68498号
[3] 沃伊切赫·巴纳什奇克。欧氏范数的beck-fiala型定理。欧洲组合数学杂志,11(6):497-5001990·Zbl 0736.51011号
[4] 沃伊切赫·巴纳兹奇克(Wojciech Banaszczyk)。n维凸体的平衡向量和高斯测度。随机结构与算法,12(4):351-3601998·兹布尔0958.52004
[5] 尼基尔·班萨尔。差异最小化的构造性算法。2010年IEEE第51届计算机科学基础年会,第3-10页。IEEE,2010年。
[6] Nikhil Bansal、Daniel Dadush、Shashwat Garg和Shachar Lovett。格拉姆施米特步行:治疗巴纳兹奇克布鲁斯的良方。2018年第50届ACM SIGACT计算理论研讨会论文集,第587-597页·兹比尔1427.68328
[7] Franöcois Chollet等人,Keras。https://keras.io网址,2015年。
[8] 马蒂厄·库巴里奥(Matthieu Courbariaux)、约书亚·本吉奥(Yoshua Bengio)和珍妮·皮埃尔·戴维(Jean-Pierre David)。二进制连接:在传播过程中使用二进制权重训练深层神经网络。《神经信息处理系统进展》,第3123-3131页,2015年。
[9] 乔治·西本科(George Cybenko)。通过sigmoid函数的叠加进行逼近。控制、信号和系统数学,2(4):303-3141989·Zbl 0679.94019号
[10] Daniel Dadush、Shashwat Garg、Shachar Lovett和Aleksandar Nikolov。走向banaszczyk向量平衡理论的建设性版本。arXiv预印本arXiv:1612.043042016·Zbl 1398.52007号
[11] 英格丽德·多贝奇斯和罗恩·德沃尔。使用非常粗糙的量化数据逼近带限函数:一系列任意阶稳定的∑-Δ调制器。数学年鉴,158(2):679-7102003·Zbl 1058.94004号
[12] 罗恩·埃尔丹和莫希特·辛格。凸集差异最小化的高效算法。arXiv预印本arXiv:1409.29132014·Zbl 1410.90121号
[13] 阿波斯托洛斯·贾诺普洛斯。关于一些向量平衡问题。数学研究所,122(3):225-2341997·Zbl 0873.52005号
[14] 龚云超(Yunchao Gong)、刘刘(Liu Liu)、杨铭(Ming Yang)和卢博米尔·波德夫(Lubomir Boudev)。使用矢量量化压缩深度卷积网络。arXiv预印本arXiv:1412.61152014。
[15] 伊恩·古德费罗、约舒亚·本吉奥、亚伦·库维尔和约舒亚·本吉奥。深度学习,第1卷。麻省理工学院出版社,剑桥,2016年·Zbl 1373.68009号
[16] 郭云辉。量化神经网络方法和理论综述。arXiv预印本arXiv:1808.047522018。
[17] Suyog Gupta、Ankur Agrawal、Kailash Gopalakrishnan和Pritish Narayanan。数值精度有限的深度学习。机器学习国际会议,第1737-1746页,2015年。
[18] 布鲁斯·哈耶克。漂移分析和应用程序隐含的命中时间和占用时间界限。应用概率的进展,第502-525页,1982年·Zbl 0495.60094号
[19] 宋汉、毛慧子和威廉·戴利。深度压缩:通过剪枝、训练量化和哈夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,ICLR会议论文,2016年。
[20] Nicholas JA Harvey、Roy Schwartz和Mohit Singh。无局部着色的差异。近似、随机化和组合优化。算法和技术(APPROX/RANDOM 2014)。Dagstuhl-Leibniz-Zentrum fuer Informatik宫,2014年。
[21] 杰弗里·欣顿(Geoffrey E Hinton)、尼蒂什·斯利瓦斯塔瓦(Nitish Srivastava)、亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克弗(Ilya Sutskever)和鲁斯兰·R·萨拉库丁诺夫。通过防止特征检测器的联合自适应改进神经网络。arXiv预印本arXiv:1207.05802012·Zbl 1318.68153号
[22] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、Ran El-Yaniv和Yoshua Bengio。量化神经网络:训练具有低精度权重和激活的神经网络。机器学习研究杂志,18(1):6869-68982017·Zbl 1468.68183号
[23] 你好,井上、安田佳彦和村上俊男。采用编码调制-δσ调制的遥测系统。IRE空间电子学和遥测学报,(3):204-2091962年。
[24] Sergey Ioffe和Christian Szegedy。批量规范化:通过减少内部协变量移位加快深度网络训练。arXiv预印本arXiv:1502.031672015。
[25] 金永德(Yong-Deok Kim)、朴恩惠(Eunhyeok Park)、柳成祖(Sunghoo Yoo)、崔泰林(Taelim Choi)、杨璐(Lu Yang)和申东军(Dongjun Shin)。用于快速和低功耗移动应用的深度卷积神经网络压缩。arXiv预印本arXiv:1511.06530,ICLR会议论文,2016年。
[26] Diederik P Kingma和Jimmy Ba.Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。
[27] 塔马拉·G·科尔达和戴安娜·P·奥利里。用于潜在语义索引信息检索的半离散矩阵分解。ACM信息系统交易(TOIS),16(4):322-3461998。
[28] Richard Kueng和Joel A Tropp。二元组分分解第二部分:不对称情况。arXiv预印本arXiv:1907.136022019·兹比尔1515.65108
[29] Yann LeCun、Yoshua Bengio和Geoffrey Hinton。深度学习自然,521(7553):4362015。
[30] Laszlo Lovasz、Joel Spencer和Katalin Vesztergombi。集合系统和矩阵的差异。欧洲组合数学杂志,7(2):151-1601986·Zbl 0606.05001号
[31] Shachar Lovett和Raghu Meka。通过在边缘行走来最小化建设性差异。SIAM计算机杂志,44(5):1573-15822015·Zbl 1330.68343号
[32] 米哈伊尔·门什科夫、塞尔盖·波波夫和安德鲁·韦德。非齐次随机游动:近临界随机系统的Lyapunov函数方法,第209卷。剑桥大学出版社,2016年·Zbl 1376.60005号
[33] 肖恩·梅恩和理查德·特威迪。马尔可夫链和随机稳定性。施普林格科学与商业媒体,2012年·Zbl 1165.60001号
[34] 罗宾·佩曼特尔和杰弗里·罗森塔尔。负漂移序列在lr中一致有界的矩条件。随机过程及其应用,82(1):143-1551999·Zbl 0997.60033号
[35] 穆罕默德·拉斯特加里(Mohammad Rastegari)、维森特·奥多内斯(Vicente Ordnez)、约瑟夫·雷德蒙(Joseph Redmon)和阿里·法哈迪(Ali Farhadi)。Xnor-net:使用二进制卷积神经网络对图像进行分类。在欧洲计算机视觉会议上,第525-542页。斯普林格,2016年。
[36] 托马斯·罗斯沃斯。凸集的构造性差异最小化。SIAM计算机杂志,46(1):224-2342017·Zbl 1359.52009年
[37] 奥尔加·鲁萨科夫斯基(Olga Russakovsky)、贾登(Jia Deng)、郝苏(Hao Su)、乔纳森·克劳斯(Jonathan Krause)、桑吉夫·萨蒂什(Sanjeev Satheesh)、肖恩·马(Sean Ma)、黄志恒(Zhiheng Huang)、安德烈·卡帕蒂(Andrej Karpathy。ImageNet大规模视觉识别挑战。国际计算机视觉杂志(IJCV),115(3):211-2522015。doi:10.1007/s11263-015-0816-y。
[38] 尤根·施密杜贝尔(Jurgen Schmidhuber)。神经网络中的深度学习:概述。神经网络,61:85-1172015。
[39] David Silver、Aja Huang、Chris J Maddison、Arthur Guez、Laurent Sifre、George Van Den Driessche、Julian Schrittwieser、Ioannis Antonoglou、Veda Panneershelvam、Marc Lanctot、Sander Dieleman、Dominik Grewe、John Nham、Nal Kalchbrenner、Ilya Sutskever、Timothy Lillicrap、Madeleine Leach、Koray Kavukcuoglu、Thore Graepel和Demis Hassabis。掌握深度神经网络和树搜索的围棋游戏。《自然》,529(7587):4842016年。
[40] 凯伦·西蒙扬和安德鲁·齐瑟曼。用于大规模图像识别的极深卷积网络。arXiv预印本arXiv:1409.15562014。
[41] 乔尔·斯宾塞。六个标准偏差就足够了。美国数学学会学报,289(2):679-7061985·Zbl 0577.05018号
[42] 罗曼·弗什宁。高维概率:数据科学应用简介,第47卷。剑桥大学出版社,2018年·Zbl 1430.60005号
[43] 王培松和程健。定点因式分解网络。《IEEE计算机视觉和模式识别会议记录》,第4012-4020页,2017年。
[44] Juyang Weng、Narendra Ahuja和Thomas S Huang。Cresceptron:自适应增长的自组织神经网络。《1992年国际神经网络联合会议论文集》,第1卷,第576-581页。IEEE,1992年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。