×

深度学习中的稀疏性:神经网络中有效推理和训练的修剪和增长。 (英语) Zbl 07626756号

摘要:深度学习的能量和性能成本不断增长,促使社区通过选择性地修剪组件来缩小神经网络的规模。与生物对应物类似,稀疏网络的泛化效果与原始密集网络一样好,有时甚至更好。Sparsity承诺减少常规网络的内存占用,以适合移动设备,并缩短不断增长的网络的培训时间。在本文中,我们调查了深度学习中稀疏性的前期工作,并为推理和训练提供了一个广泛的稀疏化教程。我们描述了移除和添加神经网络元素的方法,实现模型稀疏性的不同训练策略,以及在实践中利用稀疏性的机制。我们的工作从300多篇研究论文中提炼出想法,并为今天希望利用稀疏性的从业者以及目标是推动前沿发展的研究人员提供指导。我们包括稀疏化中数学方法的必要背景知识,描述诸如早期结构自适应、稀疏性与训练过程之间的复杂关系等现象,并展示在实际硬件上实现加速的技术。我们还定义了修剪参数效率的度量,该度量可以作为比较不同稀疏网络的基线。最后,我们推测稀疏性如何改善未来的工作负载,并概述了该领域的主要开放问题。

MSC公司:

68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 如果可用,我们会提供arXiv参考,以促进开放访问。
[2] 我们维护了一个公共存储库,其中包含本文的完整参考书目
[3] 社区的网址:http://github.com/spcl/sparsity-in-deep-learning。
[4] 亚历山德罗·阿齐尔(Alessandro Achille)、马泰奥·罗维尔(Matteo Rovere)和斯特凡诺·索托(Stefano Soatto)。2019.深度神经网络的关键学习期。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1711.08856
[5] 谢尔·阿富汗人和乌维·诺曼。2020年。神经网络的区间伴随显著性分析。国际计算科学会议。365-378.
[6] Alireza Aghasi、Afshin Abdi、Nam Nguyen和Justin Romberg,2017年。Net-Trim:性能保证的深度神经网络的凸修剪。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1611.05162
[7] Subutai Ahmad和Luiz Scheinkman。2019.我们怎么能这么密集?使用高度稀疏表示的好处。(2019). arX输入:cs。LG/1903.11257
[8] Alham Fikriand Aji和Kenneth Heafield。2017.分布式梯度下降的稀疏通信。自然语言处理经验方法会议(EMNLP)。arX输入:cs。CL/1704.05021号
[9] 豪尔赫·阿尔贝里西奥(Jorge Albericio)、帕特里克·贾德(Patrick Judd)、泰勒·赫瑟林顿(Tayler Hetherington)、托尔·阿莫特(Tor Aamodt)、娜塔莉·恩里特·杰尔格(Natalie Enright Jerger)和安德烈亚斯·莫。2016年,Cnvlutin:无效的无神经元深层神经网络计算。国际计算机体系结构研讨会(ISCA)。
[10] Dan Alistarh、Demjan Grubic、Jerry Li、Ryota Tomioka和Milan Vojnovic。2017.QSGD:通过梯度量化和编码实现高效通信的SGD。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1610.02132号
[11] Dan Alistarh、Torsten Hoefler、Mikael Johansson、Nikola Konstantinov、Sarit Khirirat和C´edric Renggli。2018.稀疏梯度方法的收敛性。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1809.10505
[12] 泽源·阿连珠、李元志、赵松。2019.通过超参数化实现深度学习的收敛理论。在国际机器学习会议(ICML)上。arX输入:cs。LG/1811.03962
[13] Amjad Almahairi、Nicolas Ballas、Tim Cooijmans、Yin Zheng、Hugo Larochelle和Aaron Courville。2016年,动态容量网络。在国际机器学习会议(ICML)上。arX输入:cs。LG/1511.07838号
[14] Jose M.Alvarez和Mathieu Salzmann。2017.深层网络压缩软件培训。神经信息处理系统进展(NeurIPS)。arX输入:cs。CV/1711.02638号
[15] Manoj Alwani、Han Chen、Michael Ferdman和Peter Milder。2016年。融合层CNN加速器。国际微体系结构研讨会(MICRO)。
[16] Shun-ichi Amari,1998年。自然梯度在学习中有效。神经计算10,2(1998),251-276。
[17] Sajid Anwar、Kyueon Hwang和Wonyong Sung。2017年,深度卷积神经网络的结构化剪枝。ACM计算系统新兴技术期刊(JETC)13,3(2017),1-18。
[18] Zahra Atashgahi、Ghada Sokar、Tim van der Lee、Elena Mocanu、Decebal Constantin Mocanu,Raymond Veldhuis和Mykola Pechenizkiy。2020年。快速稳健的功能选择:自动编码器节能稀疏训练的优势。(2020). arX输入:cs。2012年1月1日·Zbl 07510316号
[19] Kambiz Azarian、Yash Bhalgat、Jinwon Lee和Tijmen Blankevort。2020年,学习阈值修剪。(2020). arX输入:cs。LG/2003.00075
[20] Jimmy Ba、Roger Grosse和James Martens。2016年a。使用Kronecker因子近似的分布式二阶优化。在国际学习代表会议(ICLR)上。
[21] 吉米·雷巴(Jimmy Lei Ba)、杰米·瑞安·基罗斯(Jamie Ryan Kiros)和杰弗里·欣顿(Geoffrey E Hinton)。2016年b。层规范化。(2016). arX输入:cs。LG/1607.06450
[22] 皮埃尔·巴尔迪和彼得·萨多夫斯基。2013.了解辍学。神经信息处理系统进展(NeurIPS)。https://papers.nips.cc/paper/2013/hash/71f6278d140af599e06ad9bf1ba03cb0-Abstract.html·Zbl 1333.68225号
[23] Brian R.Bartoldson、Ari S.Morcos、Adrian Barbu和Gordon Erlebacher。2020年,神经网络修剪中的泛化-稳定性权衡。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1906.03728
[24] Debraj Basu、Deepesh Data、Can Karakus和Suhas N Diggavi。2020.Q解析局部SGD:具有量化、稀疏化和局部计算的分布式SGD。IEEE信息理论选定领域杂志1,1(2020),217-226。arXiv:stat.ML/1906.02367
[25] Cenk Baykal、Lucas Liebenwein、Igor Gilitschenski、Dan Feldman和Daniela Rus。2019.用于压缩神经网络并应用于泛化边界的数据相关核集。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1804.05345·Zbl 1508.68277号
[26] 阿米尔·贝克和马克·特布勒。2009.线性反问题的快速迭代收缩阈值算法。SIAM J.伊姆格。科学2,1(2009年3月),183-202·Zbl 1175.94009号
[27] 纪尧姆·贝莱克(Guillaume Bellec)、大卫·卡佩尔(David Kappel)、沃尔夫冈·马斯(Wolfgang Maass)和罗伯特·莱根斯坦(Robert Legenstein)。2018年,深度改写:培训非常稀疏的深度网络。在国际学习代表会议(ICLR)上。arX输入:cs。东北/1711.05136
[28] 伊兹·贝尔塔吉、马修·E·彼得斯和阿尔曼·科恩。2020年。朗福勒:长文档变压器。(2020). arX输入:cs。CL/2004.05150号
[29] Tal Ben-Nun、Maciej Besta、Simon Huber、Alexandros Nikolaos Ziogas、Daniel Peter和Torsten Hoefler。2019年,高绩效和可复制深度学习的模块化基准基础设施。国际并行与分布式处理研讨会(IPDPS)。arX输入:cs。DC/1901.10183号
[30] Tal Ben-Nun和Torsten Hoefler。2018年,解密并行和分布式深度学习:深度并发分析。ACM计算调查(CSUR)52,4(2018),1-43。arX输入:cs。LG/1802.09941
[31] Emmanuel Bengio、Pierre-Luc Bacon、Joelle Pineau和Doina Precup。2016年,神经网络中的条件计算用于更快的模型。(2016). arX输入:cs。LG/1511.06297号
[32] 约舒亚·本吉奥(Yoshua Bengio)、尼古拉斯·莱昂纳德(Nicholas L’eoard)和亚伦·库维尔(Aaron Courville)。2013.通过条件计算的随机神经元估计或传播梯度。(2013). arXiv:cs。LG/1308.3432号
[33] 理查德·贝策尔(Richard F Betzel)、约翰·迪亚格里亚(John D Medaglia。2017年,《人类解剖大脑网络的模块化组织:布线成本核算》,《网络神经科学》1,1(2017),42-68。arXiv:q-bio.NC/1608.01161
[34] 西蒙·比安科(Simone Bianco)、雷米·卡德内(Remi Cadene)、路易吉·塞洛纳(Luigi Celona)和保罗·拿破仑(Paolo Napoletano)。2018年,代表性深度神经网络架构的基准分析。IEEE访问6(2018),64270-64277.arXiv:cs。CV/1810.00736http://dx.doi.org/10.109/ACCESS。2018.2877890
[35] Davis Blalock、Jose Javier Gonzalez Ortiz、Jonathan Frankle和John Guttag。2020年。神经网络修剪的状态如何?。机器内学习和系统(MLSys)。arX输入:cs。LG/2003.03033号
[36] 阿尔弗雷德·布雷(Alfred Bourely)、约翰·帕特里克·布埃里(John Patrick Boueri)和克日什托夫·乔洛蒙斯基(Krzysztof Choromonski)。2017。稀疏神经网络拓扑。(2017). arXiv:cs。LG/1706.05683
[37] Tom B Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell等人,2020年。语言模型的学习者很少。神经信息处理系统进展(NeurIPS)。arX输入:cs。CL/2005.14165号
[38] Alon Brutzkus、Amir Globerson、Eran Malach和Shai Shalev-Shwartz。2018年。SGD学习在线性可分离数据上显著推广的超参数网络。在国际学习代表大会上。arX输入:cs。LG/1710.10174号
[39] P.Burrascano。1993年,一种最大化泛化的修剪技术。国际神经网络会议。
[40] 米格尔?A。Carreira-Perpina和Yerlan Idelbayev。2018.神经网络修剪的“学习-压缩”算法。计算机视觉和模式识别会议(CVPR)。
[41] 乔瓦娜·卡斯特拉诺和安娜·玛丽亚·法内利。2000.使用神经网络模型的变量选择。神经计算31,1-4(2000),1-13。
[42] 乔瓦娜·卡斯特拉诺(Giovanna Castellano)、安娜·玛丽亚·法内利(Anna Maria Fanelli)和马塞洛·佩利略(Marcello Pellillo)。1997。前馈神经网络的迭代剪枝算法。IEEE神经网络汇刊8,3(1997),519-531。
[43] Hema Chandrasekaran、Hung-Han Chen和Michael T.Manry。2000.非线性逼近器中基函数的剪枝。神经计算34,1(2000),29-53·Zbl 1009.68848号
[44] 索拉维特·昌皮尼奥(Soravit Changpinyo)、马克·桑德勒(Mark Sandler)和安德烈·兹莫吉诺夫(Andrey Zhmoginov)。2017年,《稀疏性在卷积神经网络中的力量》。(2017). arXiv:cs。简历/1702.06257
[45] 赵世康(Shih-Kang Chao)、王占玉(Zhanyu Wang)、越兴(Yue Xing)和广成(Guang Cheng)。2020年,深度神经网络的定向修剪。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2006.09358号
[46] 伊夫·肖万。1989年,一种优化使用隐藏单元的反向传播算法。神经信息处理系统进展(NeurIPS)。https://会议记录。neurips.cc/paper/1988/hash/9fc3d7152ba9336a670e36d0ed79bc43-摘要.html
[47] 库马尔·切拉皮拉(Kumar Chellapilla)、西德·普里(Sidd Puri)和帕特里斯·西马德(Patrice Simard)。2006.用于文档处理的高性能卷积神经网络。第十届笔迹识别前沿国际研讨会。
[48] Chea-Yu Chen、Jungwook Choi、Daniel Brand、Ankur Agrawal、Wei Zhang和Kailash Gopalakrishnan。2017.AdaComp:用于数据并行分布式训练的自适应剩余梯度压缩。InAAAI人工智能会议(AAAI)。arX输入:cs。LG/1712.02679
[49] 陈建达、陈尚瑜和潘嘉玲。2020年。通过深度强化学习实现存储高效和动态灵活运行时通道修剪。神经信息处理系统进展(NeurIPS)。https://procesdings.neurips。cc/paper/2020/hash/a914ecef9c12ffdb9bede64bb703d877-Abstract.html
[50] 陈天龙(Tianlong Chen)、乔纳森·弗兰克尔(Jonathan Frankle)、张世玉(Shiyu Chang)、刘思嘉(Sijia Liu)、张扬(Yang Zhang)、王章扬(Zhangyang Wang)和迈克尔·卡宾(Michael Carbin)。2020年。预训练BERT网络的彩。神经信息处理系统进展(NeurIPS)。arXiv:cs。LG/2007.12223
[51] Yu-Hsin Chen、Tushar Krishna、Joel S.Emer和Vivienne Sze。2017年,《Eyeriss:深度卷积神经网络的能效可重构加速器》。IEEE固态电路杂志52,1(2017),127-138。
[52] Yu-Hsin Chen、Tien Ju Yang、Joel Emer和Vivienne Sze。2019.Eyeriss v2:移动设备上新兴深层神经网络的灵活加速器。IEEE电路与系统新兴和选定主题期刊9,2(2019),292-308。arX输入:cs。DC/1807.07928
[53] 于成、王铎、潘舟和张涛。2020.深度神经网络的模型压缩和加速综述。(2020). arX输入:cs。LG/1710.09282
[54] Sharan Chetlur、Cliff Woolley、Philippe Vandermersch、Jonathan Cohen、John Tran、Bryan Catanzaro和Evan Shelhamer。2014年,cuDNN:深度学习的高效原语。(2014). arX输入:cs。东北/1410.0759
[55] Rewon Child、Scott Gray、Alec Radford和Ilya Sutskever。2019.使用稀疏变压器生成长序列。(2019). arX输入:cs。LG/1904.10509
[56] Minsu Cho、Ameya Joshi和Chinmay Hegde。2020年,ESPN:极为稀疏的修剪网络。(2020). arX输入:cs。LG/2006.15741
[57] Tejalal Choudhary、Vipul Mishra、Anurag Goswami和Jagannathan Sarangapani。2020年,模型压缩和加速综合调查。《人工智能评论》(2020),1-43。
[58] Tautvydas Cibas、Franöcoise Fogelman Souli´e、Patrick Gallinari和Sarunas Raudys。1996年,使用神经网络进行变量选择。神经计算12,2(1996),223-248·Zbl 0866.62012号
[59] Joseph Paul Cohen、Henry Z.Lo和Wei Ding。2017.RandomOut:使用卷积梯度范数来拯救卷积滤波器。(2017). arX输入:cs。CV/1602.05931
[60] Maxwell D.Collins和Pushmet Kohli。2014.内存受限的深卷积网络。(2014). arX输入:cs。CV/1412.1442号
[61] Gonácalo M Correia、Vlad Niculae和Andre´e FT Martins。2019.自适应稀疏变压器。自然语言处理实证方法会议和国际自然语言处理联合会议(EMNLP-IJCNLP)。arX输入:cs。CL/1909.00015号
[62] Justin Cosentino、Federico Zaiter、Dan Pei和Jun Zhu。2019.寻找稀疏、稳健的神经网络。InNeurIPS决策研讨会中的安全性和稳健性。arX输入:cs。LG/1912.02386
[63] 崔白云、李英明、陈明和张忠飞。2019.使用稀疏自我关注机制微调BERT。自然语言处理实证方法会议和国际自然语言处理联合会议(EMNLP-IJCNLP)。
[64] Bin Dai、Chen Zhu和David Wipf。2018年b。使用变化信息瓶颈压缩神经网络。在国际机器学习会议(ICML)上。arX输入:cs。CV/1802.10399号
[65] 戴晓良、尹洪旭和尼拉杰·K·贾。2018年a。NeST:基于增长与删减范式的神经网络合成工具。IEEE传输。计算68,10(2018),1487-1497。arX输入:cs。NE/1711.02017年·Zbl 07159068号
[66] 圣埃凡·德·阿斯科利(St´ephane d'Ascoli)、利文特·萨根(Levent Sagun)、琼·布鲁纳(Joan Bruna)和朱利奥·比罗利(Giulio Biroli)。2020年,通过卷积找到干草堆中的针:关于建筑偏见的益处。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1906.06766号
[67] 谢尔·戴夫(Shail Dave)、利雅得·巴格达迪(Riyadh Baghdadi)、托尼·诺瓦茨基(Tony Nowatzki)、萨西坎斯·阿文查(Sasikanth Avancha)、阿维拉尔·施瓦斯塔瓦(Aviral Shrivastava)和李宝欣(Baoxin Li。ML模型稀疏和不规则张量计算的硬件加速:综述和见解。(2020). arX输入:cs。2007年4月
[68] Peter Davies、Vijaykrishna Gurunathan、Niusha Moshrefi、Saleh Ashkboos和Dan Alistarh,2021年。分布式平均估计和方差减少的新界限。在国际学习代表大会上。arX输入:cs。LG/2002.09268号
[69] Pau de Jorge、Amartya Sanyal、Harkirat S.Behl、Philip H.S.Torr、Gregory Rogez和Puneet K.Dokania。2021.渐进骨骼化:在初始化时从网络中修剪更多脂肪。在国际学习代表会议(ICLR)上。arX输入:cs。简历/2006.09081
[70] Luisa De Vivo、Michele Bellesi、William Marshall、Eric A Bushong、Mark H Ellisman、Giulio Tononi和Chiara Cirelli。2017年。整个清醒/睡眠周期中突触伸缩的超微结构证据。《科学》355,6324(2017),507-510。
[71] 雷登、李国琦、宋涵、石路平和袁谢。2020年。神经网络的模型压缩和硬件加速:综合调查。程序。IEEE108,4(2020),485-532。
[72] 米沙·丹尼尔、巴巴克·沙基比、劳伦特·丁、马克·阿雷利奥·兰扎托和南多·德·弗雷塔斯。2013.预测深度学习中的参数。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1306.0543
[73] Tim Dettmers和Luke Zettlemoyer。2019年,从无到有的稀疏网络:更快的训练而不损失表现。(2019). arX输入:cs。LG/1907.04840
[74] 雅各布·德夫林(Jacob Devlin)、张明伟(Ming Wei Chang)、肯顿·李(Kenton Lee)和克里斯蒂娜·图塔诺娃(Kristina Toutanova)。2019.BERT:为语言理解预先训练深层双向变形金刚。计算语言学协会北美分会会议:人类语言技术(NAACL)。arX输入:cs。CL/1810.04805号
[75] Sourya Dey、Kuan Wen Huang、Peter A.Beerel和Keith M.Chugg。2019.具有硬件加速的预定义稀疏神经网络。IEEE电路与系统新兴和选定主题期刊9,2(2019),332-345。arX输入:cs。LG/1812.01164号
[76] Graham H Diering、Raja S Nirujogi、Richard H Roth、Paul F Worley、Akhilesh Pandey和Richard L Huganir。2017年。Homer1a驱动睡眠期间兴奋性突触的稳态缩小。《科学》355,6324(2017),511-515。
[77] 丁晓翰、丁桂光、郭玉晨和韩军功。2019a年。Centriptal SGD用于修剪复杂结构的极深卷积网络。计算机视觉和模式识别会议(CVPR)。arX输入:cs。LG/1904.03837号
[78] 丁晓翰、丁桂光、周向新、郭玉晨、韩军功和刘季军。2019b年。用于修剪超深神经网络的全局稀疏动量SGD。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1909.12778号
[79] 威廉·B·多兰和克里斯·布罗克特。2005.自动构建句子复述语料库。第三届释义国际研讨会论文集(IWP2005)。
[80] 佩德罗·多明戈斯。2020.通过梯度下降学习的每个模型都近似于一个内核机器。(2020). arX输入:cs。LG/2012.00152
[81] Xin Dong、Shangyu Chen和Sinno Jialin Pan。2017.通过分层优化脑外科学学习修剪深层神经网络。神经信息处理系统进展(NeurIPS)。arX输入:cs。东北/1705.07565
[82] 肖东、刘磊、李广利、李建松、赵鹏、王雪英和冯小兵。2019.利用输入稀疏性加速深层神经网络:海报。在并行编程原理与实践研讨会上。
[83] Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly等,2021年。图像值16x16个单词:用于大规模图像识别的变形金刚。在国际学习代表会议(ICLR)上。arX输入:cs。CV/2010.11929
[84] Nikoli Dryden、Tim Moon、Sam Ade Jacobs和Brian Van Essen。2016年,深层神经网络数据并行训练的通信量化。HPC环境中的机器学习研讨会(MLHPC)。
[85] Simon S.Du、Xiyu Zhai、Barnabas Poczos和Aarti Singh。2019.梯度下降显著优化了超参数神经网络。国际学习代表大会(ICLR)。arX输入:cs。LG/1810.02054
[86] Aritra Dutta、El Houcine Bergou、Ahmed M Abdelmoniem、Chen-Yu Ho、Atal Narayan Sahu、Marco Canini和Panos Kalnis。2020年。关于分布式深度学习压缩通信的理论分析与实际实现之间的差异。InAAAI人工智能会议(AAAI)。arX输入:cs。DC/1911.08250号
[87] 埃里希·埃尔森(Erich Elsen)、马拉特·杜坎(Marat Dukhan)、特雷弗·盖尔(Trevor Gale)和凯伦·西蒙扬(Karen Simonyan)。2020年。快速稀疏转换网络。计算机视觉和模式识别会议(CVPR)。arXiv:cs。CV/1911.09723
[88] 托马斯·埃尔斯克(Thomas Elsken)、扬·亨德里克·梅岑(Jan Hendrik Metzen)和弗兰克·赫特(Frank Hutter)。2019.神经架构搜索:一项调查。《机器学习研究杂志》20,55(2019),1-21。arXiv:stat.ML/1808.05377·Zbl 1485.68229号
[89] 安德里斯·P·恩格尔布雷奇特。2001.基于灵敏度信息方差分析的新剪枝启发式算法。IEEE神经网络汇刊12,6(2001),1386-1399。
[90] 安德里斯·彼得鲁斯·恩格尔布雷希特(Andries Petrus Engelbrecht)和伊恩·克洛特(Ian Cloete)。1996年,一种用于修剪前馈神经网络的灵敏度分析算法。国际神经网络会议。
[91] 安德里斯·彼得鲁斯·恩格尔布雷希特(Andries Petrus Engelbrecht)、伊恩·克洛特(Ian Cloete)和杰切克·祖拉达(Jacek M Zurada)。1995年,使用敏感性分析确定输入参数的重要性。国际人工神经网络研讨会。
[92] 乌特库·埃夫奇、特雷弗·盖尔、雅各布·梅尼克、巴勃罗·塞缪尔·卡斯特罗和埃里希·埃尔森。2020a年。操纵彩票:让所有彩票都成为赢家。在国际机器学习会议(ICML)上。arX输入:cs。LG/1911.11134号
[93] 尤特库·埃夫奇、亚尼·A·约阿诺、杰姆·凯斯金和亚恩·多芬。2020年b。稀疏神经网络中的梯度流和彩票如何获胜。(2020). arX输入:cs。LG/2010.03533号
[94] Angela Fan、Edouard Grave和Armand Joulin。2020年,根据需要减少变压器深度,并实现结构性下降。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1909.11556
[95] 威廉·费德斯(William Fedus)、巴雷特·佐夫(Barret Zoph)和诺姆·沙泽尔(Noam Shazeer)。2021.开关变压器:可扩展到万亿参数模型,具有简单高效的稀疏性。(2021). arX输入:cs。LG/2101.03961
[96] 威廉·芬诺夫(William Finnoff)、费迪南德·赫格特(Ferdinand Hergert)和汉斯·乔治·齐默尔曼(Hans Georg Zimmermann)。1993年,通过非一致性方法改进模型选择。神经网络6,6(1993),771-783。
[97] L.Fletcher、V.Katkovnik、F.E.Steffens和A.P.Engelbrecht。1998年。优化前馈人工神经网络的隐藏节点数。国际神经网络联合会议(IJCNN)。
[98] 乔纳森·弗兰克尔(Jonathan Frankle)和迈克尔·卡宾(Michael Carbin),2019年。彩票假设:寻找稀疏、可训练的神经网络。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1803.03635
[99] Jonathan Frankle、Gintare Karolina Dziugaite、Daniel M.Roy和Michael Carbin。2020a。线性模式连通性与彩票假说。在国际机器学习会议(ICML)上。arX输入:cs。LG/1912.05671号
[100] Jonathan Frankle、Gintare Karolina Dziugaite、Daniel M.Roy和Michael Carbin,2020b。稳定彩票假设。(2020). arX输入:cs。LG/1903.01611号
[101] 乔纳森·弗兰克尔(Jonathan Frankle)、金塔尔·卡罗琳娜·齐加特(Gintare Karolina Dziugaite)、丹尼尔·罗伊(Daniel M.Roy)和迈克尔·卡宾(Michael Carbin),2021年。初始化时修剪神经网络:为什么我们错过了标记?。在国际学习代表会议(ICLR)上。arX输入:cs。LG/2009.08576号
[102] 乔纳森·弗兰克尔(Jonathan Frankle)、大卫·施瓦布(David J.Schwab)和阿里·莫科斯(Ari S.Morcos)。2020年,神经网络培训的早期阶段。在国际学习代表会议(ICLR)上。arX输入:cs。LG/2002.10365号
[103] Jerome Friedman、Trevor Hastie和Robert Tibshirani。2010年。关于群套索和稀疏群套索的注释。(2010年)。arXiv:数学。ST/1001.0736号·Zbl 1143.62076号
[104] 卡尔·弗里斯顿(Karl J.Friston)。2008.大脑中的层次模型。《公共科学图书馆计算生物学》4,11(2008),e1000211。
[105] 亚当·盖尔和大卫·哈。2019.权重预测神经网络。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1906.04358
[106] Yarin Gal和Zoubin Ghahramani。2016年,辍学作为贝叶斯近似:代表深度学习中的模型不确定性。在国际机器学习会议(ICML)上。arXiv:stat.ML/1506.02142
[107] Yarin Gal、Jiri Hron和Alex Kendall。2017.混凝土浇筑。神经信息处理系统进展(NeurIPS),第30卷。arXiv:stat.ML/1705.07832
[108] 特雷弗·盖尔(Trevor Gale)、埃里希·埃尔森(Erich Elsen)和萨拉·胡克(Sara Hooker)。2019.深度神经网络的稀疏状态。(2019). arX输入:cs。LG/1902.09574
[109] 特雷弗·盖尔(Trevor Gale)、马泰·扎哈里亚(Matei Zaharia)、克利夫·杨(Cliff Young)和埃里希·埃尔森(Erich Elsen)。2020年,针对深度学习的稀疏GPU内核。国际高性能计算、网络、存储和分析会议(SC)。arX输入:cs。LG/2006.10901号
[110] Prakhar Ganesh、姚晨、Xin Lou、Mohammad Ali Khan、Yin Yang、Deming Chen、Marianne Winslett、Hassan Sajjad和Preslav Nakov。2020年。压缩基于大型变压器的模型:BERT案例研究。(2020). arX输入:cs。LG/2002.11985
[111] 葛东东,蒋小叶,叶银雨,2011。关于Lp最小化复杂性的注记。数学编程129,2(2011),285-299·Zbl 1226.90076号
[112] 乔治奥·乔治亚迪斯。2019.通过激活图压缩加速卷积神经网络。计算机视觉和模式识别会议(CVPR)。
[113] Golnaz Ghiasi、Tung-Yi Lin和Quoc V Le。2018年,DropBlock:卷积网络的正则化方法。神经信息处理系统进展(NeurIPS)。arX输入:cs。CV/1810.12890
[114] Joydep Ghosh和Kagan Tumer。1994年,监管前馈网络中的结构调整和泛化。J.阿蒂夫。神经网络1,4(1994年11月),431-458。
[115] Xavier Glorot和Yoshua Bengio。2010年。了解训练深度前馈神经网络的困难。国际人工智能与统计会议(AISTATS)。http://proceedings.mlr.press/v9/glorot10a.html
[116] 泽维尔·格洛特、安托万·博德斯和约舒亚·本吉奥。2011.深度稀疏整流器神经网络。国际人工智能与统计会议(AISTATS)。http://proceedings.mlr.press/v15/glorot11.html
[117] 马克西米利安·戈卢布(Maximilian Golub)、盖·勒米厄(Guy Lemieux)和米斯科·利斯(Mieszko Lis)。2019年,根据修剪后的重量预算进行全深度神经网络训练。机器内学习和系统(MLSys)。arX输入:cs。LG/1806.06949
[118] Aidan N.Gomez、Ivan Zhang、Siddhartha Rao Kamalakara、Divyam Madaan、Kevin Swersky、Yarin Gal和Geoffrey E.Hinton。2019.利用有针对性的辍学学习稀疏网络。(2019). arX输入:cs。LG/1905.13678号
[119] Ashish Gondimalla、Noah Chesnut、Mithuna Thottehodi和T.N.Vijaykumar。2019.SparTen:卷积神经网络的稀疏张量加速器。国际微体系结构研讨会(MICRO)。
[120] 伊恩·古德费罗(Ian Goodfellow)、让·普格特·巴迪(Jean Pouget-Abadie)、梅迪·米尔扎(Mehdi Mirza)、徐冰(Bing Xu)、大卫·沃德·法利(David Warde-Farley)、谢尔吉尔·奥扎尔(Sherjil Ozair)、。2014.生成性对抗网络。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/1406.2661
[121] Soorya Gopalakrishnan、Zhinus Marzi、Upamanyu Madhow和Ramtin Pedarsani。2018.使用稀疏表示对抗对抗性攻击。国际学习代表大会研讨会。arXiv:stat.ML/1803.03880
[122] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、Hao Wu、Tien Ju Yang和Edward Choi。2018年,MorphNet:深度网络的快速简单资源约束结构学习。计算机视觉和模式识别会议(CVPR)。arX输入:cs。LG/1711.06798号
[123] 米切尔·戈登(Mitchell A.Gordon)、杜凯文(Kevin Duh)和尼古拉斯·安德鲁斯(Nicholas Andrews)。2020年,压缩BERT:研究减重对迁移学习的影响。第五届NLP表征学习研讨会论文集。143-155. arXiv:cs。CL/2002.08307号
[124] 彼得·格伦奎斯特(Peter Gr¨onquist)、姚成元(Chengyuan Yao)、塔尔·本恩(Tal Ben-Nun)、尼科利·德莱登(Nikoli Dryden)、彼得·杜本(Peter Dueben)、李世刚(Shigang Li)和托尔斯滕·霍夫勒(。2020年,深度学习后处理集合天气预报。《皇家学会哲学学报》A379,2194(2020),20200092。arX输入:cs。LG/2005.08748
[125] William Gropp、Torsten Hoefler、Rajeev Thakur和E.Lusk。2014.使用高级MPI:消息传递接口的现代功能。麻省理工学院出版社。
[126] William Gropp、Torsten Hoefler、Rajeev Thakur和Jesper Larsson Tr¨aff。2011.MPI派生数据类型的性能期望和指南。消息传递接口的最新进展(EuroMPI’11),第6960卷。150-159.
[127] Peter D Gr¨unwald先生。2007年。最小描述长度原则。麻省理工学院出版社。98
[128] 丹尼斯·古多夫斯基、亚历克·霍奇金森和卢卡·里加齐奥。2018.GF上使用学习表示的DNN特征图压缩(2)。欧洲计算机视觉会议(ECCV)。arX输入:cs。简历/1808.05285
[129] 路易斯·格拉、博汉·庄、伊恩·里德和汤姆·德拉蒙德。2020年,量化神经网络的自动修剪。(2020). arX输入:cs。简历/2002.00523
[130] 桂树鹏、王浩涛、陈瑜、杨海川、王长阳和刘季军。2019.具有对抗性鲁棒性的模型压缩:统一优化框架。《神经信息处理系统进展》(NeurIPS)。arXiv:cs。LG/1902.03538
[131] Demi Guo、Alexander M.Rush和Yoon Kim。2020年。带差异修剪的参数高效传递学习。(2020). arX输入:cs。CL/2012.07463号
[132] 郭福明(Fu-Ming Guo)、刘思嘉(Sijia Liu)、芬雷(Finlay S Mungall)、薛琳(Xue Lin)和王燕芝(Yanzhi Wang)。2019a年。大规模语言表示的重加权近端剪枝。(2019). arX输入:cs。LG/1909.12486年
[133] 郭奇鹏、邱喜鹏、刘鹏飞、邵云凡、薛向阳、张正。2019b年。星形变压器。计算语言学协会北美分会会议:人类语言技术(NAACL)。arX输入:cs。CL/1902.09113号
[134] 郭一文、姚安邦和陈玉荣。2016年,高效DNN的动态网络手术。神经信息处理系统进展(NeurIPS)。arX输入:cs。东北/1608.04493
[135] 郭一文、张超、张长水、陈宇荣。2018年。稀疏的DNN具有改进的对抗鲁棒性。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1810.09619
[136] Manish Gupta和Puneet Agrawal。2020年,文本深度学习模式的压缩:一项调查。(2020). arX输入:cs。CL/2008.05221号
[137] 乌迪特·古普塔(Udit Gupta)、布兰登·里根(Brandon Reagen)、莉莲·五旬节(Lillian Pentecost)、马可·多纳托(Marco Donato)、蒂埃里·坦贝(Thierry Tambe)、亚历山大·拉什(Alexander M.Rush)、顾延伟(。2019.MASR:稀疏RNN的模块化加速器。在并行体系结构和编译技术国际会议(PACT)上。arXiv:eess。SP/1908.08976号
[138] Masafumi Hagiwara先生。1993.去除反向传播网络的隐藏单元和权重。国际神经网络会议。
[139] Masafumi Hagiwara先生。1994年。一种简单有效的去除隐藏单位和重量的方法。神经计算6,2(1994),207-218。反向传播,第四部分。
[140] 韩红桂和乔俊飞。2013.前馈神经网络构建的结构优化算法。神经计算99(2013),347-357。
[141] 宋汉、康俊龙、毛慧子、胡一鸣、李欣、李玉斌、谢东亮、洪洛、宋尧、王瑜、杨华忠和威廉·戴利。2017.ESE:FPGA上使用稀疏LSTM的高效语音识别引擎。现场可编程门阵列国际研讨会。arX输入:cs。CL/1612.00694号
[142] 宋汉、刘星宇、毛慧子、蒲靖、佩德拉姆、马克·霍洛维茨和威廉·戴利。2016年a。EIE:基于压缩深度神经网络的高效推理引擎。ACM SIGARCH计算机体系结构新闻44,3(2016),243-254。arX输入:cs。简历:1602.01528
[143] 宋汉、毛慧子和威廉·戴利。2016年b。深度压缩:使用修剪、训练量化和哈夫曼编码压缩深度神经网络。在国际学习代表大会上。arX输入:cs。CV/1510.00149
[144] 宋汉、杰夫·普尔、莎兰·纳朗、毛慧子、龚恩浩、唐世坚、埃里希·埃尔森、彼得·瓦伊达、马诺哈·帕鲁里、约翰·特拉、布莱恩·卡坦扎罗和威廉·戴利。2017年,DSD:深度神经网络的密集稀疏训练。在国际学习代表会议(ICLR)上。arX输入:cs。CV/1607.04381
[145] 拉尔斯·凯·汉森和莫顿与佩德森。1994.级联相关网络的受控增长。人工神经网络会议。
[146] 斯蒂芬·汉森和洛里安·普拉特。1989年,比较最小网络建设与反向传播的偏差。神经信息处理系统进展(NeurIPS)。https://proceedings.neurips.cc/paper/1988/hash/1c9ac0159c94d8d0cbedc973445af2da-Abstract.html
[147] 巴巴克·哈桑和大卫。Stork.1992.网络修剪的二阶导数:OptimalBrainSurgeon。神经信息处理系统进展(NeurIPS)。https://papers.nips.cc/paper/1992/hash/303ed4c69846ab36c2904d3ba8573050-摘要.html
[148] 杰夫·霍金斯。2017年特别报道:我们能复制大脑吗智能机器需要向新皮质学习什么。IEEE Spectrum54,6(2017),34-71。
[149] Soufiane Hayou、Jean-Francois Ton、Arnaud Doucet和Yee Whye Teh。2021.初始化时稳健修剪。国际学习代表大会(ICLR)。arXiv:stat.ML/2002.08797
[150] 何开明(Kaiming He)、乔治亚·吉奥萨里(Georgia Gkioxari)、彼得·多尔(Piotr Doll´ar)和罗斯·吉希克(Ross Girshick)。2017.屏蔽R-CNN。在国际计算机视觉会议(ICCV)上。arX输入:cs。简历/1703.06870
[151] 何开明、张翔宇、任少清和孙健。2015年,深入研究整流器:在ImageNet分类上超越人类水平的性能。国际计算机视觉会议(ICCV)。arX输入:cs。CV/1502.01852
[152] 何开明、张翔宇、任少清和孙健。2016.图像识别的深度剩余学习。计算机视觉和模式识别会议(CVPR)。arX输入:cs。CV/1512.03385
[153] 何一辉、吉林、刘志坚、王汉瑞、李佳丽和宋汉。2018.AMC:移动设备上模型压缩和加速的AutoML。欧洲计算机视觉会议(ECCV)。arX输入:cs。简历/1802.03494
[154] 杨河、刘萍、王紫薇、胡志兰和杨毅。2019.通过几何中值进行滤波器修剪,以加速深度卷积神经网络。计算机视觉和模式识别会议(CVPR)。arX输入:cs。简历/1811.00250
[155] 何一辉、张湘玉、孙健。2017年,加速超深层神经网络的渠道修剪。国际计算机视觉会议。arX输入:cs。简历/1707.06168
[156] 唐纳德·奥·赫布。1949年,行为组织:神经心理学理论。纽约威利。
[157] 卡蒂克·赫格德(Kartik Hegde)、哈迪·阿斯加里·莫哈达姆(Hadi Asghari-Moghaddam。2019.ExTensor:稀疏张量代数加速器。国际微体系结构研讨会(MICRO)。
[158] Dan Hendrycks和Thomas Dietterich。2019.对神经网络对常见腐败和扰动的鲁棒性进行基准测试。国际学习代表大会(ICLR)。arX输入:cs。LG/1903.12261
[159] Dan Hendrycks、Kevin Zhao、Steven Basart、Jacob Steinhardt和Dawn Song。2019.自然的对抗性例子。(2019). arX输入:cs。LG/1907.0174年
[160] 苏珊娜·赫库拉诺·胡泽尔(Suzana Herculano-Houzel)、布鲁诺·莫塔(Bruno Mota)、王培炎(Peiyan Wong)和乔恩·卡斯(Jon H.Kaas)。2010年,连接驱动灵长类大脑皮层的白质缩放和折叠。《国家科学院学报》107,44(2010),19008-19013。
[161] 帕克·希尔、阿尼梅斯·贾恩、梅森·希尔、巴巴克·扎米莱、张洪旭、迈克尔·劳伦扎诺、斯科特·马勒克、汤凌嘉和杰森·马尔斯。2017.DeftNN:通过Synapse Vector Elimination和近计算数据裂变解决GPU上DNN执行的瓶颈问题。国际微体系结构研讨会(MICRO)。
[162] 杰弗里·辛顿(Geoffrey Hinton)、奥利奥·维尼尔(Oriol Vinyals)和杰夫·迪恩(Jeff Dean)。2015.在神经网络中提取知识。InNeurIPS深度学习和表征学习研讨会。arXiv:stat.ML/1503.02531
[163] 杰弗里·欣顿(Geoffrey E.Hinton)、尼蒂什·斯利瓦斯塔瓦(Nitish Srivastava)、亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克弗(Ilya Sutskever)和鲁斯兰·R·萨拉库丁诺夫。2012.通过防止特征检测器的联合自适应来改进神经网络。(2012). arX输入:cs。东北/1207.0580·Zbl 1318.68153号
[164] 杰弗里·欣顿(Geoffrey E Hinton)和德鲁·范·坎普(Drew Van Camp)。1993年。通过最小化权重的描述长度,保持神经网络的简单性。计算学习理论会议(COLT)。
[165] 托尔斯滕·霍夫勒和罗伯托·贝利。2015年,并行计算系统的科学基准测试。国际高性能计算、网络、存储和分析会议(SC)。
[166] Sara Hooker、Aaron Courville、Gregory Clark、Yann Dauphin和Andrea Frome。2019.压缩深度神经网络忘记了什么?(2019)。arX输入:cs。LG/1911.05248号
[167] 萨拉·胡克(Sara Hooker)、尼亚伦·穆洛西(Nyalleng Moorosi)、格雷戈里·克拉克(Gregory Clark)、萨米·本吉奥(Samy Bengio)和艾米丽·丹顿(Emily Denton)。2020年。描述压缩模型中的偏差。(2020). arX输入:cs。LG/2010.03058号
[168] 安德鲁·霍华德(Andrew G.Howard)、朱梦龙(Menglong Zhu)、陈波(Bo Chen)、德米特里·卡列尼琴科(Dmitry Kalenichenko)、王卫军(Weijun Wang)、托比亚斯·韦扬德(Tobias Weyand)、马可·安德列托(Marco。2017.MobileNets:移动视觉应用的高效卷积神经网络。(2017). arXiv:cs。简历/1704.04861
[169] 帕特里克·O·霍耶。2004.稀疏约束下的非负矩阵分解。机器学习研究杂志,2004年11月,1457-1469·Zbl 1222.68218号
[170] 胡恒远(Hengyuan Hu)、芮鹏(Rui Peng)、泰宇文(Yu-Wing Tai)和唐奇强(Chi-Keung Tang)。2016。网络修剪:一种面向高效深度架构的数据驱动神经元修剪方法。(2016). arX输入:cs。东北/1607.03250
[171] 高煌、余孙、刘庄、丹尼尔·塞德拉和基连·温伯格。2016年,具有随机深度的深度网络。欧洲计算机视觉会议(ECCV)。arX输入:cs。LG/1603.09382
[172] 黄泽豪和王乃燕。2018.深度神经网络的数据驱动稀疏结构选择。欧洲计算机视觉会议(ECCV)。arX输入:cs。简历/1707.01213
[173] ZiyueHuang,Wang Yilei,KeYi,etal.2019.分配平均估计的最优稀疏敏感边界。InAdvances神经信息处理系统(NeurIPS)。https://papers.nips.cc/paper/2019/hash/5b970a1d9be0fd100063fd6cd688b73e-Abstract.html
[174] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、Ran El-Yaniv和Yoshua Bengio。2016.二值化神经网络。神经信息处理系统进展(NeurIPS)。https://papers.nips.cc/paper/2016/hash文件/d8330f857a17c53d217014ee776bfd50-Abstract.html
[175] Forrest N.Iandola、Song Han、Matthew W.Moskewicz、Khalid Ashraf、William J.Dally和Kurt Keutzer。2016.SqueezeNet:AlexNet级精度,参数少50倍,模型大小小于0.5MB。(2016). arX输入:cs。CV/1602.07360
[176] 谢尔盖·洛夫和克里斯蒂安·塞格迪。2015.批量规范化:通过减少内部协变量转移加快深层网络培训。在国际机器学习会议(ICML)上。arX输入:cs。LG/1502.03167
[177] Andrei Ivanov、Nikoli Dryden、Tal Ben Nun、Shigang Li和Torsten Hoefler。2021.数据移动就是你所需要的:优化变压器的案例研究。机器内学习和系统(MLSys)。arX输入:cs。LG/2007.00072
[178] Nikita Ivkin、Daniel Rothchild、Enayat Ullah、Ion Stoica、Raman Arora等人,2019年。具有草图功能的高效通信分布式SGD。神经信息处理系统研究进展。arX输入:cs。LG/1903.04488
[179] Robert A Jacobs、Michael I Jordan、Steven J Nowlan和Geoffrey E Hinton。1991年,当地专家的适应性混合。神经计算3,1(1991),79-87。
[180] 尼胡斯·扬(Niehues Jan)、罗尔达诺·卡托尼(Roldano Cattoni)、斯图克·塞巴斯蒂安(Stuker Sebastian)、马泰奥·内格里(Matteo Negri)、马可·图尔奇(Marco Turchi)、萨勒斯基·伊丽莎白(Salesky Elizabeth)、桑布里亚·拉蒙(Sanabria Ramon。2019.2019年IWSLT评估活动。2019年第16届国际口语翻译研讨会。
[181] 史蒂文·亚诺夫斯基(Steven A Janowsky)。1989.神经网络中的修剪与裁剪。《物理评论》A 39,12(1989),6600。
[182] Siddhant Jayakumar、Razvan Pascanu、Jack Rae、Simon Osindero和Erich Elsen。2020年,Top-KAST:Top-K总是稀疏训练。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2106.03517
[183] 彭江和加甘·阿格拉瓦尔。2018年,利用稀疏量化通信进行分布式深度学习的线性加速分析。神经信息处理系统进展(NeurIPS)。https://proceedings.neurips.cc/paper/2018/hash/17326d10d511828f6b34fa6d751739e2-Abstract.html
[184] Sian Jin、Sheng Di、Xin Liang、Jiannan Tian、Dingwen Tao和Frank Cappello。2019.DeepSZ:一种使用误差有界有损压缩来压缩深层神经网络的新框架。在高性能并行和分布式计算(HPDC)国际研讨会上。arX输入:cs。CV/1901.09124
[185] 金晓杰、袁晓桐、冯佳诗、颜水成。2016.使用迭代硬阈值方法训练瘦深度神经网络。(2016). arX输入:cs。简历/1607.05423
[186] Sari Jones、Lars Nyberg、Johan Sandblom、Anna Stigsdotter Neely、Martin Ingvar、Karl Magnus Petersson和Lars B¨ackman。2006.老龄化中的认知和神经可塑性:一般和特定任务的局限性。《神经科学与生物行为评论》30,6(2006),864-871。
[187] 迈克尔·乔丹和罗伯特·雅各布斯。1994年,专家和EM算法的分层混合。《神经计算》6,2(1994),181-214。
[188] Nal Kalchbrenner、Erich Elsen、Karen Simonyan、Seb Noury、Norman Casagrande、Edward Lockhart、Florian Stimberg、Aaron van den Oord、Sander Dieleman和Koray Kavukcuoglu。2018.高效神经音频合成。在国际机器学习会议(ICML)上。arX输入:cs。SD/1802.08435号
[189] Keisuke Kameyama和Yukio Kosugi。1991年,在优化网络规模中自动融合和分割人工神经元素。在IEEE系统、人和控制论国际会议上。
[190] 康敏秀和韩伯雄。2020.使用不同掩码进行操作感知的软通道修剪。在国际机器学习会议(ICML)上。arX输入:cs。LG/2007.03938号
[191] Partha P.Kanjilal、P.K.Dey和D.N.Banerjee。1993年。通过奇异值分解和子集选择减小神经网络的规模。《电子信件》29,17(1993),1516-1518。
[192] 贾里德·卡普兰、萨姆·麦肯德利什、汤姆·海尼根、汤姆·布朗、本杰明·切斯、瑞沃·查尔德、斯科特·格雷、亚历克·拉德福德、杰弗里·吴和达里奥·阿莫迪。2020年,神经语言模型的缩放律。(2020). arX输入:cs。LG/2001.08361号
[193] 赛·普拉尼斯·卡里米雷迪(Sai Praneeth Karimireddy)、昆汀·雷布约克(Quentin Rebjock)、塞巴斯蒂安·斯蒂奇(Sebastian U Stich)和马丁·贾吉(Martin Jaggi)。2019.错误反馈修复了SignSGD和其他梯度压缩方案。在国际机器学习会议(ICML)上。arX输入:cs。LG/1901.09847
[194] 埃胡德·卡宁。1990年。修剪反向传播训练神经网络的简单程序。IEEE神经网络汇刊1,2(1990),239-242。
[195] 杰森·科尔(Jason N.D.Kerr)、大卫·格林伯格(David Greenberg)和弗里特约夫·赫尔姆琴(Fritjof Helmchen)。2005.体内新皮质网络的成像输入和输出。《国家科学院学报》102,39(2005),14063-14068。
[196] Dongyoung Kim、Junwhan Ahn和Sungjoo Yoo。2018.ZeNA:零感知神经网络加速器。IEEE设计测试35,1(2018),39-46。
[197] Diederik P Kingma、Tim Salimans和Max Welling。2015年,变异辍学和当地重新参数化技巧。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/1506.02557
[198] Diederik P Kingma和Max Welling。2014.自动编码变分贝叶斯。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1312.6114·Zbl 1431.68002号
[199] Maxim Kodryan、Artem Grachev、Dmitry Ignatov和Dmitry Vetrov。2019.递归神经网络中具有自动相关性确定的高效语言建模。第四届NLP表征学习研讨会论文集(RepL4NLP2019)。40-48.
[200] 雅库布·科尼和彼得·里奇塔里克。2018.随机分布平均值估计:准确性与沟通。应用数学与统计前沿4(2018),62。arX输入:cs。DC/1611.07555号
【201】 安德斯·克罗格(Anders Krogh)和约翰·赫兹(John A.Hertz)。1991年。简单的体重衰减可以改善泛化。神经信息处理系统进展(NeurIPS)。https://papers.nips.cc/paper/1991/hash/8eefcfdf5990e441f0fb6f3fad709e21-Abstract。html格式
[202] David Krueger、Tegan Maharaj、Jáanos Kram'ar、Mohammad Pezeshki、Nicolas Ballas、Nan Rosemary Ke、Anirudh Goyal、Yoshua Bengio、Aaron Courville和Chris Pal.2017年。分区:通过随机保留隐藏激活来规范RNN。国际学习代表大会(ICLR)(2017年)。arXiv:cs。东北/1606.01305
[203] 苏维克·昆都、马赫迪·纳泽米、彼得·比雷尔和马苏德·佩德拉姆。2021.DNR:通过DNN的动态网络重写实现的可调稳健修剪框架。亚洲及南太平洋设计自动化会议(ASP-DAC)。arXiv公司:cv.cv/2011.03083
[204] Souvik Kundu、Mahdi Nazemi、Massoud Pedram、Keith M Chugg和Peter A Beerel。2020年。低复杂度卷积神经网络的预定义稀疏性。IEEE传输。计算69,7(2020),1045-1058。arX输入:cs。简历/2001.10710·兹比尔07254781
[205] Souvik Kundu和Sairam Sundaresan。2021.AttentionLite:建立高效的视觉自我关注模型。国际声学、语音和信号处理会议(ICASSP)。arX输入:cs。CV/2101.05216
[206] H.T.Kung、Bradley McDanel和Sai Qian Zhang。2019.用于高效收缩阵列实现的封装稀疏卷积神经网络:联合优化下的列组合。在编程语言和操作系统(ASPLOS)架构支持国际会议上。arX输入:cs。LG/1811.04770
[207] Frederik Kunstner、Philipp Hennig和Lukas Balles。2019.自然梯度下降的经验Fisher近似的局限性。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1905.12558
[208] Mark Kurtz、Justin Kopinsky、Rati Gelashvili、Alexander Matveev、John Carr、Michael Goin、William Leiserson、Sage Moore、Nir Shavit和Dan Alistarh,2020年。诱导和利用激活稀疏性实现深度神经网络的快速推理。在国际机器学习会议(ICML)上。http://proceedings.mlr.press/v119/kurtz20a.html
[209] Aditya Kusupati、Vivek Ramanujan、Raghav Somani、Mitchell Wortsman、Pratek Jain、Sham Kakade和Ali Farhadi。2020年,可学习稀疏性的软阈值权重重新参数化。在国际机器学习会议(ICML)上。arX输入:cs。LG/2002.03231
[210] Andrey Kuzmin、Markus Nagel、Saurabh Pitre、Sandeep Pendyam、Tijmen Blankevort和Max Welling。2019.卷积神经网络结构压缩的分类和评估。(2019). arX输入:cs。LG/1912.09802号
[211] Tom Kwiatkowski、Jennimaria Palomaki、Olivia Redfield、Michael Collins、Ankur Parikh、Chris Alberti、Danielle Epstein、Illia Polosukhin、Jacob Devlin、Kenton Lee等人,2019年。自然问题:问答研究的基准。计算语言学协会学报7(2019),453-466。
[212] 纪尧姆·兰普尔(Guillaume Lample)、亚历山大·萨布劳尔斯(Alexandre Sablayrolles)、马克·阿雷利奥·兰扎托(Marc’Aurelio Ranzato)、卢多维克·德诺耶(Ludovic Denoyer)和赫夫·杰戈(Herv´e J´egou。2019.带有产品密钥的大型内存层。神经信息处理系统进展(NeurIPS)。arX输入:cs。氯/1907.05242
[213] 古斯塔夫·拉尔森(Gustav Larsson)、迈克尔·梅尔(Michael Maire)和格雷戈里·沙克纳罗维奇(Gregory Shakhnarovich)。2017.FractalNet:无残差超深神经网络。国际学习代表大会(ICLR)(2017年)。arX输入:cs。CV/1605.07648
[214] 菲利普·劳雷特(Philippe Lauret)、埃里克·福克(Eric Fock)和蒂埃里·亚历克斯·马拉(Thierry Alex Mara)。2006.一种基于傅立叶幅度灵敏度测试方法的节点修剪算法。IEEE神经网络汇刊17,2(2006),273-293。
[215] 安德鲁·拉文和斯科特·格雷。2016.卷积神经网络的快速算法。计算机视觉和模式识别会议(CVPR)。arX输入:cs。东北/1509.09308
[216] Yann Le Cun、John S.Denker和Sara A.Solla。1990年最佳脑损伤。神经信息处理系统进展(NeurIPS)。
[217] 瓦迪姆·列别捷夫(Vadim Lebedev)和维克托·伦皮茨基(Victor Lempitsky)。2016.使用群体性脑损伤的快速转化。计算机视觉和模式识别会议(CVPR)。arX输入:cs。CV/1506.02515
[218] Namhoon Lee、Thalaiyasingam Ajanthan、Stephen Gould和Philip H.S.Torr。2020年。初始化时修剪神经网络的信号传播前景。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1906.06307
[219] Namhoon Lee、Thalaiyasingam Ajanthan和Philip H.S.Torr。2019.SNIP:基于连接灵敏度的单快照网络修剪。在国际学习代表会议(ICLR)上。arX输入:cs。CV/1810.02340
[220] 德米特里·勒皮钦(Dmitry Lepikhin)、李孝忠(HyoukJoong Lee)、徐元忠(Yuanchong Xu)、陈德豪(Dehao Chen)、奥汉·菲拉特(Orhan Firat)、黄延平(Yanping Huang)、马克西姆·克里坤(Maxim Krikun)、诺。2021.GShard:使用条件计算和自动切分缩放巨型模型。在国际学习代表会议(ICLR)上。arX输入:cs。CL/2006.16668号
[221] 李春元(Chunyuan Li)、海瑞德·法科尔(Heerad Farkhoor)、罗珊·刘(Rosanne Liu)和杰森·尤辛斯基(Jason Yosinski)。2018.测量客观景观的内在维度。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1804.08838
[222] 郝丽(Hao Li)、阿西姆·卡达夫(Asim Kadav)、伊戈尔·杜丹诺维奇(Igor Durdanovic)、哈南·萨梅特(Hanan Samet)和汉斯·彼得·格拉夫(Hans-Peter Graf)。2017.高效ConvNets的修剪过滤器。在国际学习代表会议(ICLR)上。arXiv:cs。简历/1608.08710
[223] 2019年,李佳军、姜树浩、龚世军、吴靖雅、颜俊超、颜桂海和李晓伟。SqueezeFlow:一个利用简洁卷积规则的稀疏CNN加速器。IEEE传输。计算68,11(2019),1663-1677·Zbl 07159083号
[224] 李小雅、孟玉贤、周明新、韩庆红、吴飞和李继伟。2020a。SAC:通过稀疏自适应连接加速和构建自我注意。神经信息处理系统进展(NeurIPS)。arX输入:cs。CL/2003.09833号
[225] 李云强(Yunqiang Li)、西尔维娅·劳拉·平特(Silvia Laura Pintea)和简·范·杰默特(Jan van Gemert)。2020年b。少即是多:修剪深度二进制网络如何增加权重容量。(2020).https://openreview。网络/论坛?id=Hy8JM_Fvt5N
[226] 李元志、魏科林、马腾宇,2020d。解释神经网络训练中初始大学习率的正则化效应。神经信息处理系统进展(NeurIPS)。arXiv:cs。LG/1907.04595
[227] 李卓翰、埃里克·华莱士、沈盛、林凯文、科特·凯泽尔、丹·克莱恩和约瑟夫·冈萨雷斯。2020年c。大训练,然后压缩:重新思考模型大小,以便有效训练和推断变形金刚。在国际机器学习会议(ICML)上。arX输入:cs。CL/2002.11794号
[228] 卢卡斯·利本温(Lucas Liebenwein)、岑克·贝卡尔(Cenk Baykal)、哈里·朗(Harry Lang)、丹·费尔德曼(Dan Feldman)和丹妮拉·罗斯(Daniela Rus)。2020年。高效神经网络的可证明滤波器修剪。在国际学习代表会议(ICLR)上。arXiv:cs。LG/1911.07412
[229] 蒂莫西·利利克拉普(Timothy P.Lillicrap)、乔纳森·亨特(Jonathan J.Hunt)、亚历山大·普里泽尔(Alexander Pritzel)、尼古拉·海斯(Nicolas Heess)、汤姆·埃雷斯(Tom Erez)、尤瓦尔·塔萨(Yuval Tassa。2016年,通过深度强化学习进行持续控制。在国际机器学习会议(ICML)上。arX输入:cs。LG/1509.02971
[230] Timothy P Lillicrap、Adam Santoro、Luke Marris、Colin J Akerman和Geoffrey Hinton。2020年,反向传播和大脑。《自然评论神经科学》(2020),1-12。
[231] 林孝泰、大卫·安徒生和迈克尔·卡明斯基。2019.3LC:用于分布式机器学习的轻量级有效流量压缩。机器内学习和系统(MLSys)。arX输入:cs。LG/1802.07389
[232] 吉林、饶永明、陆继文、周杰。2017.运行时神经修剪。神经信息处理系统进展(NeurIPS)。https://papers.nips。cc/paper/2017/hash/a51fb975227d6640e4fe47854476d133-Abstract.html
[233] Tao Lin、Sebastian U.Stich、Luis Barba、Daniel Dmitriev和Martin Jaggi。2020年。带反馈的动态模型修剪。在国际学习代表会议(ICLR)上。arX输入:cs。LG/2006.07253号
[234] 林育君、宋汉、毛慧子、王瑜和威廉·戴利。2018.深度梯度压缩:减少分布式训练的通信带宽。国际学习代表大会(ICLR)。arX输入:cs。CV/1712.01887号文件
[235] 子林、耶利米·哲·刘、子阳、南华和丹·罗斯。2020年。通过谱归一化身份优先修剪变压器模型中的冗余映射。计算语言学协会研究结果:EMNLP 2020。arX输入:cs。CL/2010.01791号
[236] Pierre Lison、J¨org Tiedemann、Milen Kouylekov等人,2019年。2018年开放字幕:大型、嘈杂的平行语料库中句子对齐的统计重新排序。第十一届国际语言资源与评价会议。
[237] 刘宝元、王敏、Hassan Foroosh、Marshall Tappen和Marianna Penksy。2015年,稀疏卷积神经网络。国际计算机视觉与模式识别会议(CVPR)。
[238] 刘兰兰和贾登。2018年,动态深层神经网络:通过选择性执行优化精度效率权衡。InAAAI人工智能会议(AAAI)。arX输入:cs。长/1701.00299
[239] 刘柳、雷登、兴虎、朱茂华、李国琦、丁宇飞和袁谢。2019.高效深度学习的动态稀疏图。在国际学习代表会议(ICLR)上。arX输入:cs。长度/1810.00859
[240] 刘天麟(Tianlin Liu)和曾克(Friedemann Zenke)。2020年。通过神经切线传递找到可训练的稀疏网络。在国际机器学习会议(ICML)上。arX输入:cs。LG/2006.08228
[241] 刘银汉(音)、米勒·奥特(Myle Ott)、纳曼·戈亚尔(Naman Goyal)、杜敬飞(Jingfei Du)、曼达尔·乔希(Mandar Joshi)、陈丹奇(Danqi Chen)、奥马尔·利维(Omer Levy)、迈克·刘易斯(Mike Lewis)、卢克·泽特莫。2019a年。RoBERTa:一种稳健优化的BERT预处理方法。(2019). arX输入:cs。CL/1907.11692号
[242] 刘庄、李建国、沈志强、高煌、严寿萌、张长水。2017.通过网络瘦身学习高效卷积网络。国际计算机视觉会议(ICCV)。arXiv:cs。简历/1708.06519
[243] 刘紫薇、罗萍、王晓刚和唐晓鸥。2015年,深入学习野外面部特征。国际计算机视觉会议(ICCV)。arX输入:cs。CV/1411.7766
[244] 刘庄、孙明杰、周廷辉、黄高和特雷弗·达雷尔。2019b年。重新思考网络修剪的价值。在国际学习代表会议(ICLR)上。arXiv:1810.05270
[245] 叶卡捷琳娜·洛巴切娃(Ekaterina Lobacheva)、纳德什达·奇尔科娃(Nadezhda Chirkova)和德米特里·维特罗夫(Dmitry Vetrov)。门控递归神经网络的贝叶斯稀疏化。InNeurIPS工业应用紧凑型深层神经网络研讨会。arX输入:cs。LG/1812.05692
[246] 伊利亚·洛希洛夫和弗兰克·赫特。2019.解耦权重衰减正则化。在国际学习代表会议(ICLR)上。arXiv:1711.05101
[247] Christos Louizos、Karen Ullrich和Max Welling。2017.深度学习贝叶斯压缩。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/1705.08665
[248] Christos Louizos、Max Welling和Diederik P.Kingma。2018.通过L0正则化学习稀疏神经网络。在国际学习代表会议(ICLR)上。arXiv:stat.ML/1712.01312
[249] 罗建浩和吴建新。2019.AutoPruner:一种用于高效深度模型推断的端到端可训练过滤器修剪方法。《图案识别》107(2019),107461。arX输入:cs。简历/1805.08941
[250] 罗建浩、吴建新和林伟耀,2017年。ThiNet:一种用于深度神经网络压缩的滤波器级修剪方法。国际计算机视觉会议(ICCV)。arX输入:cs。简历1707.06342
[251] Alexander Ly、Maarten Marsman、Josine Verhagen、Raoul Grasman和Eric-Jan Wagenmakers。2017年,费希尔信息指南。《数学心理学杂志》80(2017),40-55。arXiv:数学。ST/1705.01064号·Zbl 1402.62318号
[252] 桑库格·莱姆(Sangkug Lym)、埃沙·乔克斯(Esha Choukse)、西瓦什·赞格内(Siavash Zangeneh)、魏文(Wei Wen)、苏杰·桑哈维(Sujay Sanghavi)和马坦·埃雷斯(Mattan Erez)。2019.PruneTrain:通过动态稀疏模型重构实现快速神经网络训练。国际高性能计算、网络、存储和分析会议(SC)。arX输入:cs。LG/1901.09290
[253] Divyam Madaan、Jinwoo Shin和Sung Ju Hwang。2020年。具有潜在脆弱性抑制的对抗性神经修剪。在国际机器学习会议(ICML)上。arX输入:cs。LG/1908.04355
[254] Chris J.Maddison、Andriy Mnih和Yee Whye Teh。2017.具体分布:离散随机变量的连续松弛。国际学习代表大会(ICLR)(2017)。arX输入:cs。LG/1611.00712
[255] Alireza Makhzani和Brendan Frey。2015年,Winner-Take-All自动编码器。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1409.2752
[256] 埃兰·马拉赫(Eran Malach)、吉拉德·耶胡代(Gilad Yehudai)、沙伊·沙列夫·施瓦茨(Shai Shalev-Shwartz)和奥哈德·沙米尔(Ohad Shamir)。2020年,彩票假说的证明:修剪是你所需要的。在国际机器学习会议(ICML)上。arX输入:cs。LG/2002.00585
[257] Chaitanya Malaviya、Pedro Ferreira和Andre´e FT Martins。2018年,神经机器翻译的注意力分散且受到限制。计算语言学协会年会(第2卷:短文)(ACL)。arX输入:cs。CL/1805.08241号
[258] Arun Mallya和Svetlana Lazebnik。2018.PackNet:通过迭代修剪向单个网络添加多个任务。国际计算机视觉与模式识别会议(CVPR)。arX输入:cs。CV/1711.05769
[259] 弗朗科·马内西、亚历山德罗·罗扎、西蒙·比安科、保罗·拿破仑和雷蒙多·谢蒂尼。2018.Deep Neural Network Compression的自动修剪。国际模式识别会议(ICPR)。arX输入:cs。CV/1712.01721号
[260] 毛慧子、韩松、池杰夫、李文硕、刘星宇、王瑜和威廉·戴利。2017.探索卷积神经网络中稀疏结构的规律。(2017). arX输入:cs。修订本/1705.08922
[261] 塞尔达·马里特和苏夫里特·斯拉。2016.多样性网络:使用确定性点过程的神经网络压缩。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1511.05077
[262] 詹姆斯·马滕斯和罗杰·格罗斯。2015。使用Kronecker因子近似曲率优化神经网络。在国际机器学习会议(ICML)上。arX输入:cs。LG/153.05671号
[263] 安德烈·马丁斯和拉蒙·阿斯图迪略。2016.从softmax到sparsemax:注意力和多标签分类的稀疏模型。在国际机器学习会议(ICML)上。arX输入:cs。CL/1602.02068号
[264] 彼得·马特森(Peter Mattson)、克里斯汀·程(Christine Cheng)、科迪·科尔曼(Cody Coleman)、格雷格·迪亚莫斯(Greg Diamos)、保利乌斯·米切维希乌斯(Paulius Micikevicius)、大卫·帕特森(David Patterson)、唐汉林(Hanlin Tang)、顾延伟(Gu-Yeon Wei)、彼得·贝利斯(Peter Bailis)、维克多·比托夫(Victor Bittorf)、大卫·布鲁克斯(David Brooks)、陈德豪(Dehao Chen)、,Deepak Narayanan、Tayo Oguntebi、Gennady Pekhimenko、Lillian Pentecost、Vijay Janapa Reddi、Taylor Robie、Tom St.John、Tsuguchika Tabaru、Carole-Jean Wu、Lingjie Xu、Masafumi Yamazaki、Cliff Young和Matei Zaharia。2020年。MLPerf培训基准。机器内学习和系统(MLSys)。arX输入:cs。LG/1910.01500
[265] Sam McCandish、Jared Kaplan、Dario Amodei和OpenAI Dota团队。2018年,大批量培训的经验模型。(2018)。arX输入:cs。LG/1812.06162
[266] J.S.McCarley、Rishav Chakravarti和Avirup Sil。2020年,基于BERT的问答模型的结构化修剪。(2020). arXiv:cs。CL/1910.06360号
[267] Dushyant Mehta、Kwang In Kim和Christian Theobalt。2019.关于卷积神经网络中的隐式滤波器级稀疏性。计算机视觉和模式识别会议(CVPR)。arX输入:cs。LG/1811.12495
[268] 拉胡尔·梅塔。2019.通过赢得彩票进行稀疏转移学习。InNeurIPS学习可转移技能研讨会。arX输入:cs。第190页第507785页
[269] 孟繁旭、郝成、李珂、罗慧祥、郭晓伟、卢光明、孙兴。2020年,修剪过滤器中的过滤器。神经信息处理系统进展(NeurIPS)。arX输入:cs。简历/2009.14410
[270] 赫鲁西基什·姆哈斯卡(Hrushikesh Mhaskar)和托马索·波乔(Tomaso Poggio)。2016年,深度网络与浅层网络:近似理论视角。分析与应用14,06(2016),829-848。arX输入:cs。LG/1608.03287·Zbl 1355.68233号
[271] Paul Michel、Omer Levy和Graham Neubig。2019.十六个头真的比一个好吗?。神经信息处理系统进展(NeurIPS)。arX输入:cs。CL/1905.10650号
[272] 贝伦·米利奇(Beren Millidge)、亚历山大·桑茨(Alexander Tschantz)和克里斯托弗·巴克利(Christopher L.Buckley)。2020年。预测编码沿任意计算图近似反向支撑。(2020). arX输入:cs。LG/2006.04182·Zbl 1487.68197号
[273] Asit K.Mishra、Eriko Nurvitadhi、Jeffrey J.Cook和Debbie Marr。2018年,WRPN:宽降精度网络。在国际学习代表会议(ICLR)上。arX输入:cs。简历/1709.01134
[274] Deepak Mittal、Shweta Bhardwaj、Mitesh M.Khapra和Balaraman Ravindran。2018.从随机修剪中恢复:关于深卷积神经网络的可塑性。冬季计算机视觉应用会议(WACV)。arX输入:cs。CV/1801.10447号
[275] 德西巴尔·君士坦丁·莫卡努(Decebal Constantin Mocanu)、埃琳娜·莫卡诺(Elena Mocanu,Elena Mocanu)、福昂·H·阮(Phuong H.Nguyen)、马德琳·吉贝斯库(Madeleine Gibescu)和安东尼奥·利奥塔。2016年,对受限Boltzmann机器的拓扑洞察。机器学习104,2-3(2016年7月),243270·Zbl 1386.68134号
[276] 德西巴尔·康斯坦丁·莫卡努、埃琳娜·莫卡诺、彼得·斯通、冯·阮、马德琳·吉贝斯库和安东尼奥·利奥塔。2018年,受网络科学启发,采用自适应稀疏连接的人工神经网络可扩展训练。自然传播9,1(2018),1-12。arX输入:cs。东北/1707.04780
[277] Dmitry Molchanov、Arsenii Ashukha和Dmitry Vetrov。2017年,变异辍学使深层神经网络稀疏化。在国际机器学习会议(ICML)上。arXiv:stat.ML/1701.05369
[278] Pavlo Molchanov、Arun Mallya、Stephen Tyrie、Iuri Frosio和Jan Kautz。2019.神经网络修剪的重要性评估。计算机视觉和模式识别会议(CVPR)。arX输入:cs。LG/1906.10771
[279] 帕夫洛·莫尔恰诺夫(Pavlo Molchanov)、斯蒂芬·泰利(Stephen Tyree)、泰罗·卡拉斯(Tero Karras)、蒂莫·艾拉(Timo Aila)和扬·考茨(Jan Kautz)。2017.修剪卷积神经网络以实现资源效率推断。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1611.06440
[280] 约翰·穆迪。1991年。关于非线性学习系统中的泛化、正则化和架构选择的说明。InIEEE信号处理神经网络研讨会。
[281] 阿里·莫科斯(Ari S.Morcos)、于浩南(Haonan Yu)、米歇拉·帕格尼尼(Michela Paganini)和田远东(Yian Dong Tian)。2019.一票全胜:跨数据集和优化器推广彩票初始化。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/1906.02773
[282] Hesham Mostafa和Xin Wang。2019.通过动态稀疏重参数化对深度卷积神经网络进行参数高效训练。在国际机器学习会议(ICML)上。arXiv:cs。LG/1902.05967号
[283] Michael C Mozer和Paul Smolensky。1988.骨骼化:一种通过相关性评估从网络中去除脂肪的技术。神经信息处理系统进展(NeurIPS)(1988年)。https://proceedings.neurips.cc/paper/1988/hash/07e1cd7dca89a1678042477183b7ac3f-Abstract.html
[284] 萨扬·穆克吉(Sayan Mukherjee)、帕塔·尼约吉(Partha Niyogi)、托马索·波乔(Tomaso Poggio)和瑞恩·里夫金(Ryan Rifkin)。2006.学习理论:稳定性对于泛化是足够的,对于经验风险最小化的一致性是必要的和足够的。计算数学进展25,1-3(2006),161-193·Zbl 1099.68693号
[285] Ben Mussay、Daniel Feldman、Samson Zhou、Vladimir Braverman和Margarita Osadchy。2020年,通过核集对神经网络进行独立于数据的结构化修剪。在国际学习代表大会上。arX输入:cs。LG/2008.08316
[286] Sharan Narang、Erich Elsen、Gregory Diamos和Shubho Sengupta。2017年,探索递归神经网络中的稀疏性。国际学习代表大会(ICLR)。arX输入:cs。LG/1704.05119
[287] 普拉莫德·纳拉西姆哈(Pramod L.Narasimha)、沃尔特·德拉什米特(Walter H.Delashmit)、迈克尔·曼里(Michael T.Manry)、蒋丽(Jiang Li)和弗朗西斯科·马尔多纳多(Francisco Maldonado)。2008.一种用于前馈网络训练的集成生长修剪方法。神经计算71,13(2008),2831-2847。
[288] 基里尔·内克柳多夫(Kirill Neklyudov)、德米特里·莫尔恰诺夫(Dmitry Molchanov)、阿塞尼·阿舒卡(Arsenii Ashukha)和德米特里·维特罗(Dmitry-Vetrov)。2017.基于对数正态乘性噪声的结构化贝叶斯修剪。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/1705.07283
[289] 贝纳姆·尼沙布尔(Behnam Neyshabur)。2020年,从零开始学习卷积。InTowards Learning Convolutions from Scratch公司。arX输入:cs。LG/2007.13657号
[290] 贝纳姆·尼沙布尔(Behnam Neyshabur)、李志远(Zhiyuan Li)、斯里纳德·博贾纳帕利(Srindah Bhojanapalli)、延勒村(Yann LeCun)和内森·斯雷布罗(Nathan Srebro)。2019.超参数化在神经网络泛化中的作用。在国际学习代表会议(ICLR)上。arX输入:cs。2007年12月18日
[291] Jiquan Ngiam、Zhenghao Chen、Daniel Chia、Pang W.Koh、Quoc V.Le和Andrew Y.Ng,2010年。平铺卷积神经网络。神经信息处理系统进展(NeurIPS)。https://papers.nips.cc/paper/2010/hash/01f78be6f7cad02658508fe4616098a9-Abstract.html
[292] 弗拉德·尼库莱和马修·布隆德尔。2017年。稀疏和结构化神经注意的规范化框架。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/1705.07704
[293] 尼尔斯·J·尼尔森。2009年,《人工智能的探索:思想和成就的历史》。剑桥大学出版社。
[294] Yue Niu、Rajgopal Kannan、Ajitesh Srivastava和Viktor Prasanna。2020。重用内核还是激活?适用于低速率谱CNN加速的灵活数据流。在现场可编程门阵列(FPGA)国际研讨会上。
[295] 岳牛、曾汉庆、阿吉特斯·斯利瓦斯塔瓦、卡提克·拉科蒂亚、拉戈帕尔·坎南、王延之和维克托·普拉桑纳。2019.SPEC2:FPGA上的SPECtral SParsE CNN加速器。(2019). arX输入:cs。CV/1910.11103
[296] Noh Hyenwoo、Seunghoon Hong和Bohyung Han。2015.学习语义分段反褶积网络。国际计算机视觉会议(ICCV)。arX输入:cs。CV/1505.04366号
[297] 史蒂文·诺兰(Steven J Nowlan)和杰弗里·欣顿(Geoffrey E Hinton)。1992年。通过软权重分配简化神经网络。《神经计算》4,4(1992),473-493。
[298] 恩维迪亚。2020年,NVIDIA A100 Tensor核心GPU架构。(2020).
[299] Bruno A Olshausen和David J Field。1996年,通过学习自然图像的稀疏代码,出现了简单细胞感受野特性。《自然》3816583(1996),607-609。
[300] 劳伦特·奥尔索(Laurent Orseau)、马库斯·赫特(Marcus Hutter)和奥马尔·里瓦斯普拉塔(Omar Rivasplata)。2020年。对数修剪就是你所需要的。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2006.12156号
[301] 大川和贵、津津洋平、上野裕一郎、Naruse、Rio Yokota和松冈佐治。2019.深度卷积神经网络使用KroneckerFactored近似曲率的大规模分布式二阶优化。计算机视觉和模式识别会议(CVPR)。arX输入:cs。2019年12月18日
[302] 魏攀、郝东和郭一科。2016年,DropNeuron:简化深层神经网络的结构。(2016). arX输入:cs。简历/1606.07326
[303] Angshuman Parashar、Minsoo Rhu、Anurag Mukkara、Antonio Puglielli、Rangharajan Venkatesan、Brucek Khailany、Joel Emer、Stephen W.Keckler和William J.Dally。2017.SCNN:压缩解析卷积神经网络加速器。ACM SIGARCH计算机架构新闻45,2(2017),27-40。arX输入:cs。东北/1708.04485
[304] Jongsoo Park、Sheng Li、Wei Wen、Ping Tak Peter Tang、Hai Li、Yiran Chen和Pradeep Dubey。2017.采用直接稀疏卷积和引导修剪的更快CNN。在国际学习代表大会上。arX输入:cs。CV/1608.01409
[305] 尼基·帕马尔、阿什什·瓦斯瓦尼、雅各布·乌兹科雷特、卢卡斯·凯泽、诺姆·沙泽尔、亚历山大·库和达斯汀·特朗。2018.图像转换器。在国际机器学习会议(ICML)上。arX输入:cs。简历/1802.05751
[306] 莫滕·佩德森(Morten Pedersen)、拉尔斯·汉森(Lars Hansen)和扬·拉森(Jan Larsen)。1995.基于泛化权重显著性的修剪:λOBD,λOBS。神经信息处理系统(NeurIPS)的进展。https://proceedings.neurips.cc/paper/1995/哈希/3473 deccb0509fb264818a7512a8b9b-Abstract.html
[307] Ankit Pensia、Shashank Rajput、Alliot Nagle、Harit Vishwakarma和Dimitris Papailiopoulos。2020年。通过SubsetSum获得最佳彩票:对数过参数化就足够了。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2006.07990
[308] 布莱恩·普卢默(Bryan A.Plummer)、尼科利·德莱顿(Nikoli Dryden)、朱利叶斯·弗罗斯特(Julius Frost)、托尔斯滕·霍夫勒(Torsten Hoefler)和凯特·桑科(Kate Saenko)。2020年。神经参数分配搜索。(2020). arXiv:cs。LG/2006.10598号
[309] 亚当·波利亚克和利奥尔·沃尔夫。2015年,渠道层面的深度面部表情加速。IEEE Access3(2015),2163-2175。
[310] Udo W.Pooch和Al Nieder。1973年,稀疏矩阵索引技术综述。ACM计算。Surv.5,2(1973年6月),109-133·Zbl 0261.65035号
[311] Ameya Prabhu、Girish Varma和Anoop Namboodiri,2018年。深度扩展器网络:图论中的高效深度网络。欧洲计算机视觉会议(ECCV)。arX输入:cs。CV/1711.08757号
[312] 赛·普拉桑纳(Sai Prasanna)、安娜·罗杰斯(Anna Rogers)和安娜·拉姆希斯基(Anna Rumshisky)。2020年,BERT开奖时,所有彩票都赢了。自然语言处理经验方法会议(EMNLP)。arX输入:cs。CL/2005.00561号
[313] Lutz Prechelt。1997年,采用静态和自适应修剪计划进行连接修剪。神经计算16,1(1997),49-61。
[314] Eric Qin、Ananda Samajdar、Hyoukjun Kwon、Vineet Nadella、Sudarshan Srinivasan、Dipankar Das、Bharat Kaul和Tushar Krishna。2020年,SIGMA:用于DNN培训的具有柔性互连的稀疏和不规则GEMM加速器。高性能计算机体系结构国际研讨会(HPCA)。
[315] Md Aamir Raihan和Tor M.Aamodt。2020年。瘦身激活训练。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2001.01969
[316] 阿德南·西拉杰·拉金(Adnan Siraj Rakin)、何哲智(Zhezhi He)、李阳(Li Yang)、王彦志(Yanzhi Wang)、李强(Liqiang Wang)和范德良(Deliang Fan)。2020年。稳健稀疏规则化:通过规则化稀疏网络防御对抗性攻击。五大湖区超大规模集成电路研讨会(GLSVLSI)。
[317] 维维克·拉马努扬(Vivek Ramanujan)、米切尔·沃茨曼(Mitchell Wortsman)、阿尼鲁德哈·坎巴维(Aniruddha Kembhavi)、阿里·法哈迪(Ali Farhadi)和穆罕默德·拉斯特加里(Mohammad Rastegari)。随机加权神经网络中隐藏着什么?。计算机视觉和模式识别会议(CVPR)。arX输入:cs。CV/1911.13299
[318] 卡尔·爱德华·拉斯穆森(Carl Edward Rasmussen)和佐宾·加拉马尼(Zoubin Ghahramani)。2000年。奥卡姆剃刀。神经信息处理系统进展(NeurIPS)。https://papers.nips.cc/paper/2000/hash/0950ca92a4dcf426067cfd2246bb5ff3-Abstract.html
[319] 布兰登·里根(Brandon Reagen)、保罗·沃特莫(Paul Whatmough)、罗伯特·阿道夫(Robert Adolf)、萨科斯·拉玛(Saketh Rama)、李贤光(Hyunkwang Lee)、李赛奎(Sae Kyu Lee),何塞·米格尔·埃尔恩德斯·洛巴托(Josée Miguel He。2016年,Minerva:实现低功耗、高精度深层神经网络加速器。国际计算机体系结构研讨会(ISCA)。
[320] 拉塞尔·里德。1993年,修剪算法——一项调查。IEEE神经网络汇刊4,5(1993),740-747。
[321] 亚历克斯·伦达(Alex Renda)、乔纳森·弗兰克尔(Jonathan Frankle)和迈克尔·卡宾(Michael Carbin),2020年。比较神经网络修剪中的重绕和微调。在国际学习代表会议(ICLR)上。arX输入:cs。LG/2003.02389号
[322] C'edric Renggli、Saleh Ashkboos、Mehdi Aghagolzadeh、Dan Alistarh和Torsten Hoefler。2019.SparCML:用于机器学习的高性能稀疏通信。国际高性能计算、网络、存储和分析会议(SC)。arX输入:cs。DC/1802.08021号
[323] 阿尔伯特·鲁瑟(Albert Reuther)、彼得·米查利亚斯(Peter Michaleas)、迈克尔·琼斯(Michael Jones)、维杰伊·加德帕利(Vijay Gadepally)、西德哈斯·萨姆西(Siddharth Samsi)和杰里米·凯普纳。2020年机器学习加速器调查。在IEEE高性能极限计算会议(HPEC)上。arX输入:cs。DC/2009.00993
[324] 丹尼尔·希梅内斯·雷泽德(Danilo Jimenez Rezende)、夏基尔·穆罕默德(Shakir Mohamed)和达安·维斯特拉(Daan Wierstra)。2014.深度生成模型中的随机反向传播和变分推理。在国际机器学习会议(ICML)上。
[325] Minsoo Rhu、Mike O'Connor、Niladrish Chatterjee、Jeff Pool、Youngeun Kwon和Stephen W Keckler。2018.压缩DMA引擎:利用激活稀疏性训练深层神经网络。国际高性能计算机体系结构研讨会(HPCA)。arX输入:cs。LG/1705.01626号
[326] 安娜·罗杰斯(Anna Rogers)、奥尔加·科瓦莱娃(Olga Kovaleva)和安娜·拉姆什斯基(Anna Rumshisky)。2021.BERTology入门:我们对BERT工作原理的了解。计算语言学协会学报8(2021),842-866。arXiv:cs。CL/2002.12327号
[327] 克莱门斯·罗森鲍姆(Clemens Rosenbaum)、蒂姆·克林格(Tim Klinger)和马修·里默(Matthew Riemer)。2017.路由网络:多任务学习中非线性函数的自适应选择。(2017). arX输入:cs。LG/1711.01239
[328] 斯图亚特·罗素和彼得·诺维格。2020年,《人工智能:现代方法》(第4版)。普伦蒂斯·霍尔出版社·Zbl 0835.68093号
[329] 塔拉·N·赛纳(Tara N.Sainath)、布莱恩·金斯伯里(Brian Kingsbury)、维卡斯·辛德瓦尼(Vikas Sindhwani)、埃布鲁·阿里索伊(Ebru Arisoy)和布瓦纳·拉马巴德兰(Bhuvana Ramabhadran)。2013.具有高维输出目标的深度神经网络训练的低秩矩阵分解。国际声学、语音和信号处理会议(ICASSP)。
[330] Victor Sanh、Thomas Wolf和Alexander M.Rush。2020年。运动修剪:通过微调实现自适应稀疏性。神经信息处理系统进展(NeurIPS)。arX输入:cs。CL/2005.07683号
[331] 佩德罗·萨瓦雷斯、雨果·席尔瓦和迈克尔·梅尔。2020年。连续抽彩中奖。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1912.04427号
[332] 西蒙·斯卡达潘(Simone Scardapane)、达尼洛·科米尼埃洛(Danilo Comminiello)、埃米尔·侯赛因(Amir Hussain)和奥雷里奥·恩西尼(Aurelio Uncini)。2017.深度神经网络的群稀疏正则化。神经计算241(2017),81-89。arXiv:stat.ML/1607.00485
[333] 保罗·谢夫勒(Paul Schefler)、弗洛里安·扎鲁巴(Florian Zaruba)、费比安·舒基(Fabian Schuiki)、托尔斯滕·霍夫勒(Torsten Hoefler)和卢卡·贝尼尼(Luca Benini)。2020年。高效稀疏密集线性代数的间接流语义寄存器体系结构。(2020). arX输入:cs。2011年8月7日·Zbl 07497294号
[334] Abigail See、Minh-Thang Luong和Christopher D.Manning。2016年,通过剪枝压缩神经机器翻译模型。InSIGNLL计算自然语言学习会议。arX输入:cs。人工智能/1606.09274
[335] Vikash Sehwag、Shiqi Wang、Pratek Mittal和Suman Jana。2020年,HYDRA:修剪对抗性稳健神经网络。神经信息处理系统进展(NeurIPS)。arX输入:cs。简历/2002.10509
[336] Frank Seide、Hao Fu、Jasha Droppo、Gang Li和Dong Yu。2014.1位随机梯度下降及其在语音DNN数据并行分布式训练中的应用。在国际言语交际协会第十五届年会上。
[337] 阿迪蒂亚·夏尔马(Aditya Sharma)、尼古拉·沃尔夫(Nikolas Wolfe)和比沙·拉吉(Bhiksha Raj)。2017年,《难以置信的萎缩神经网络:通过剪枝的镜头研究学习表征的新视角》(The Increditable Shrinking Neural Network:New Perspectives on Learning Representations Through The Lens of Pruning)。(2017). arX输入:cs。东北/1701.04465
[338] 诺姆·沙泽尔(Noam Shazeer)、阿扎利亚·米罗塞尼(Azalia Mirhoseini)、科兹托夫·马齐亚茨(Krzysztof Maziarz)、安迪·戴维斯(Andy Davis)、奎克·勒(Quoc Le)、杰弗里·欣顿(Geoffrey。2017.极度庞大的神经网络:专家层的SparelyGate混合。在国际学习代表会议(ICLR)上。arXiv:cs。LG/1701.06538
[339] 史绍怀、王强、赵开勇、汤振恒、王玉欣、黄翔和朱晓文。2019a年。一种用于低带宽网络的具有全局Top-k稀疏化的分布式同步SGD算法。国际分布式计算系统会议网络研讨会。arX输入:cs。DC/1901.04359号·Zbl 1464.68324号
[340] 石少怀、赵凯勇、王强、唐振恒和朱晓文。2019b年。具有通信效率梯度稀疏化的分布式SGD的收敛性分析。在国际人工智能联合会议上·Zbl 1464.68324号
[341] Reza Shokri和Vitaly Shmatikov。2015。隐私保护深度学习。InACM SIGSAC计算机和通信安全会议。
[342] Ravid Shwartz-Ziv和Naftali Tishby。2017年,通过信息打开深度神经网络的黑匣子。(2017). arX输入:cs。LG/1703.00810
[343] Jocelyn Sietsma和Robert JF Dow。1991.创建泛化的人工神经网络。神经网络4,1(1991),67-79。
[344] Jocelyn Sietsma和Robert J.F.Dow。1988年,神经网络剪枝——为什么和如何剪枝。国际神经网络会议。
[345] Laurent Sifre和Stéephane Mallat。2014.用于图像分类的刚性运动散射。博士论文。科勒理工学院,CMAP。
[346] Sidak Pal Singh和Dan Alistarh,2020年。WoodFisher:神经网络压缩的有效二阶近似。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2004.14340号
[347] 萨马拉斯·辛哈、赵正立、阿尼鲁德·戈亚尔、科林·阿拉斐尔和奥古斯塔斯·奥德纳。2020.GAN的Top-k训练:通过丢弃不良样本来提高GAN的性能。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/2002.06224
[348] Samuel L.Smith、Pieter-Jan Kindermans、Chris Ying和Quoc V.Le。2018年。不要降低学习率,增加批量。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1711.00489
[349] Richard Socher、Alex Perelygin、Jean Wu、Jason Chung、Christopher D.Manning、Andrew Y.Ng和Christopher Potts。2013.情感树库语义合成的递归深度模型。自然语言处理经验方法会议(EMNLP)。
[350] Suraj Srinivas和R.Venkatesh Babu。2015.Deep Neural Networks的无数据参数修剪。英国机器视觉会议(BMVC)。arX输入:cs。简历/1507.06149
[351] Suraj Srinivas和R.Venkatesh Babu。2016.使用反向传播学习神经网络架构。英国机器视觉会议(BMVC)。arX输入:cs。LG/1511.05497号
[352] 苏拉杰·斯里尼瓦斯(Suraj Srinivas)、阿克沙瓦伦·苏布拉曼亚(Akshayvarun Subramanya)和R.文卡特斯·巴布(R.Venkatesh Babu)。2016.训练稀疏神经网络。计算机视觉和模式识别研讨会。arX输入:cs。简历:1611.06694
[353] 尼蒂什·斯利瓦斯塔瓦(Nitish Srivastava)、杰弗里·欣顿(Geoffrey Hinton)、亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克沃(Ilya Sutskever)和鲁斯兰·萨拉库丁诺夫。2014.辍学:防止神经网络过度拟合的简单方法。《机器学习研究杂志》15,56(2014),1929-1958。网址:https://jmlr.org/论文/v15/srivastava14a.html·Zbl 1318.68153号
[354] 塞巴斯蒂安·U·斯蒂奇(Sebastian U Stich)、珍妮·巴普蒂斯特·科丹尼尔(Jean-Baptiste Cordonnier)和马丁·贾吉(Martin Jaggi)。2018年,节省了SGD内存。神经信息处理系统进展(NeurIPS)。arXiv:cs。LG/1809.07599
[355] Nikko Str–om公司。1997。大型动态人工神经网络中的稀疏连接和剪枝。在第五届欧洲语音通信与技术会议上。
[356] Nikko Strom。2015.使用商品GPU云计算的可扩展分布式DNN培训。在国际言语交际协会第十六届年会上。
[357] 苏京桐、陈一航、蔡天乐、吴天豪、高瑞奇、王利伟和杰森·D·李。2020年。卫生检查修剪方法:随机入场券可以赢得头奖。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2009.11094号
[358] 泽维尔·苏奥(Xavier Suau)、卢卡·扎佩拉(Luca Zappella)和尼古拉斯·阿波斯托洛夫(Nicholas Apostoloff)。2019.网络压缩过滤蒸馏。冬季计算机视觉应用会议(WACV)。arX输入:cs。简历/1807.10585
[359] 孙浩波、邵英霞、蒋嘉伟、崔斌、凯雷、于旭和蒋旺。2019.分布式SGD的稀疏梯度压缩。国际先进应用数据库系统会议。139-155.
[360] 徐孙、任宣成、马树明、王厚峰。2017.meProp:稀疏反向传播,加快深度学习,减少过拟合。在国际机器学习会议(ICML)上。arX输入:cs。LG/1706.06197号
[361] 孙毅、王晓刚和唐晓鸥。2015年,为人脸识别稀疏化神经网络连接。计算机视觉和模式识别会议(CVPR)。arX输入:cs。修订号:1512.01891
[362] 阿南达·瑟塔·苏雷什(Ananda Theertha Suresh)、X Yu Felix、桑吉夫·库马尔(Sanjiv Kumar)和H Brendan McMahan。2017年。通信有限的分布式平均估计。国际机器学习会议(ICML)。arX输入:cs。LG/1611.00429
[363] 铃木贤治、伊索·霍里巴和诺博鲁·苏吉。2001.一种简单的神经网络剪枝算法及其在滤波器综合中的应用。神经处理信件。43-53. ·Zbl 1008.68715号
[364] Vivienne Sze、Yu-Hsin Chen、Tien-Ju Yang和Joel S.Emer.2017年。深度神经网络的高效处理:教程和调查。程序。IEEE105,12(2017),2295-2329。arX输入:cs。简历/1703.09039
[365] Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Angelov、Dumitru Erhan、Vincent Vanhoucke和Andrew Rabinovich。2015年,通过卷积进一步深化。计算机视觉和模式识别(CVPR)。arX输入:cs。CV/1409.4842号
[366] 克里斯蒂安·塞格迪(Christian Szegedy)、文森特·范胡克(Vincent Vanhoucke)、谢尔盖·洛夫(Sergey Ioffe)、乔纳森·什伦斯(Jonathon Shlens)和兹比格尼乌·沃伊纳(Zbigniew Wojna)。2016年,重新思考计算机视觉的盗梦空间架构。计算机视觉和模式识别会议(CVPR)。arX输入:cs。简历/1512.00567
[367] S.Tamura、M.Tateishi、M.Matumoto和S.Akita。1993年。三层前馈神经网络中冗余隐藏单元数量的确定。神经网络国际会议。
[368] Chong Min John Tan和Mehul Motani。2020年,DropNet:通过迭代修剪降低神经网络复杂性。国际机器学习会议(ICML)。http://proceedings.mlr.press/v119/tan20a.html
[369] Tan Mingxing、Bo Chen、Rooming Pang、Vijay Vasudevan、Mark Sandler、Andrew Howard和Quoc V.Le。2019.MnasNet:移动平台软件神经架构搜索。计算机视觉和模式识别会议(CVPR)。arX输入:cs。CV/1807.11626号
[370] 谭明兴(Mingxing Tan)和郭文乐(Quoc V.Le.)。2020年。EfficientNet:重新思考卷积神经网络的模型缩放。在国际机器学习会议(ICML)上。arX输入:cs。LG/1905.11946
[371] 田中秀内里、丹尼尔·库宁、丹尼尔·亚明斯和苏里亚·甘古里。2020年。通过迭代保存突触流来修剪没有任何数据的神经网络。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2006.05467号
[372] 唐汉林、陈瑜、莲香茹、张彤和刘吉。2019.双挤压:并行随机梯度下降和双通误差补偿压缩。在国际机器学习会议(ICML)上。arX输入:cs。DC/1905.05957号
[373] 汤叶慧、王云和、徐宜兴、陶大成、徐春景、徐超和徐昌。2020年b月。SCOP:可靠神经网络修剪的科学控制。神经信息处理系统进展(NeurIPS)。arX输入:cs。简历/2010.10732
[374] 唐振恒,石绍怀,朱晓文,王伟,李波.2020a。有效沟通的分布式深度学习:一项综合调查。(2020). arX输入:cs。DC/2003.06307号·Zbl 1464.68324号
[375] 恩佐·塔塔利奥内(Enzo Tartaglione)、斯加尔格·莱普索(Skjalg Lepsoy)、阿提里奥·费安德罗蒂(Attilio Fiandrotti)和吉安卢卡·弗朗西尼(Gianluca Francini)。2018年,通过灵敏度驱动的正则化学习稀疏神经网络。神经信息处理系统进展(NeurIPS)。arXiv:cs。LG/1810.11764
[376] Yi Tay、Mostafa Dehghani、Samira Abnar、Yikang Shen、Dara Bahri、Philip Pham、Jinfeng Rao、Liu Yang、Sebastian Ruder和Donald Metzler。2021.远程竞技场:高效变形金刚的基准。在国际学习代表会议(ICLR)上。arX输入:cs。LG/2011.04006
[377] Yi Tay、Mostafa Deghani、Dara Bahri和Donald Metzler。2020年。高效变压器:调查。(2020). arX输入:cs。LG/2009.06732号
[378] Ian Tenney、Dipanjan Das和Ellie Pavlick。2019.BERT重新发现了经典的NLP管道。在计算语言学协会(ACL)年会上。arX输入:cs。CL/1905.05950号
[379] 卢卡斯·泰斯(Lucas Theis)、艾丽娜·科尔舒诺娃(Iryna Korshunova)、阿利坎·特贾尼(Alykhan Tejani)和费伦斯·胡斯扎尔(Ferenc Husz´ar)。2018年,通过密集网络和Fisher修剪,实现更快的凝视预测。(2018)。arX输入:cs。简历/1801.05787
[380] 乔治·蒂姆和埃米尔·菲斯勒。1995年,评估修剪方法。人工神经网络国际研讨会论文集。
[381] 罗伯特·提比拉尼(Robert Tibshirani)。1996.通过套索回归收缩和选择。《皇家统计学会杂志:B辑(方法学)》58,1(1996),267-288·Zbl 0850.62538号
[382] 迈克尔·E·小费。2001。稀疏贝叶斯学习和关联向量机。机器学习研究杂志1,Jun(2001),211-244·兹比尔0997.68109
[383] 乔纳森·汤普森(Jonathan Tompson)、罗斯·戈罗辛(Ross Goroshin)、阿琼·贾恩(Arjun Jain)、亚恩·勒村(Yann LeCun)和克里斯托弗·布雷格勒(Christopher Bregler)。2015.使用卷积网络进行有效的对象定位。计算机视觉和模式识别会议(CVPR)。arXiv:cs。CV/1411.4280
[384] Yusuke Tsuzuku、Hiroto Imachi和Takuya Akiba。2018.基于方差的梯度压缩用于高效分布式深度学习。在国际学习代表研讨会上。arX输入:cs。LG/1802.06058号
[385] 凯伦·乌尔里奇(Karen Ullrich)、爱德华·米兹(Edward Meeds)和马克斯·威林(Max Welling)。2017.神经网络压缩的软权重共享。在国际学习代表会议(ICLR)上。arXiv:stat.ML/1702.04008
[386] 迪登·乌纳特、安舒·杜比、托尔斯滕·霍夫勒、约翰·沙尔夫、马克·阿布拉罕、毛罗·比安科、布拉德福德·L·张伯伦、罗曼·克莱达特、H.卡特·爱德华兹、哈尔·芬克尔、卡尔·富林格、弗兰克·汉尼格、埃曼纽尔·杰安诺、埃米尔·卡米尔、杰夫·凯斯勒、保罗·H·J·凯利、维图斯·梁朝伟、哈泰姆·利夫、娜奥亚·马鲁亚马、克里斯·纽伯恩和米奎尔·佩里卡斯。2017年,HPC系统数据位置提取趋势。IEEE并行和分布式系统汇刊(TPDS)28,10(2017年10月)。
[387] 马特·范巴伦(Mart van Baalen)、克里斯托斯·路易斯(Christos Louizos)、马库斯·内格尔(Markus Nagel)、拉娜·阿里·阿姆贾德(Rana Ali Amjad)、王英(Ying Wang)、蒂杰门·布兰科沃特(Tijmen Blankevort)和马克。2020.贝叶斯比特:统一量化和修剪。神经信息处理系统研究进展。arX输入:cs。LG/2005.07093
[388] 阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N.Gomez)、卢卡斯·凯泽(Lukas。2017年。关注是你所需要的。神经信息处理系统进展(NeurIPS)。arX输入:cs。CL/1706.03762号
[389] Stijn Verdenius、Maarten Stol和Patrick Forr´e。2020.通过敏感性统计的迭代排名进行修剪。(2020). arX输入:cs。LG/2006.00896号
[390] Elena Voita、David Talbot、Fedor Moiseev、Rico Sennrich和Ivan Titov。2019.分析多头脑的自我关注:专业化的头脑可以胜任重任,其余的可以修剪。在计算语言学协会(ACL)年会上。arXiv:cs。CL/1905.09418号
[391] 李万(Li Wan)、马修·泽勒(Matthew Zeiler)、张思欣(Sixin Zhang)、延乐村(Yann Le Cun)和罗伯·弗格斯(Rob Fergus)。2013年,使用DropConnect规范神经网络。在国际机器学习会议(ICML)上。http://proceedings.mlr.press/v28/wan13.html
[392] 亚历克斯·王、阿曼普雷特·辛格、朱利安·迈克尔、费利克斯·希尔、奥马尔·利维和塞缪尔·鲍曼。2019.GLUE:用于自然语言理解的多任务基准测试和分析平台。在国际学习代表会议(ICLR)上。arX输入:cs。CL/1804.07461号
[393] 王朝琦(Chaoqi Wang)、罗杰·格罗斯(Roger Grosse)、桑贾·菲德勒(Sanja Fidler)和张国栋(Guodong Zhang)。2019.特征损伤:在kronecker-factord特征基中进行结构化修剪。在国际机器学习会议(ICML)上。arX输入:cs。LG/1905.05934
[394] 王红一、斯科特·西维特、刘胜超、扎卡里·查尔斯、迪米特里斯·帕皮廖普洛斯和斯蒂芬·赖特。2018.ATOMO:通过原子稀疏化实现高效通信学习。神经信息处理系统进展(NeurIPS)。arXiv:stat.ML/1806.04090
[395] Linnan Wang、Wei Wu、Junyu Zhang、Hang Liu、George Bosilca、Maurice Herlihy和Rodrigo Fonseca。2020年b。基于FFT的深度神经网络分布式训练梯度稀疏化。在高性能并行和分布式计算(HPDC)国际研讨会上。
[396] 王子恒、杰里米·沃尔文德和陶磊。2020a。大型语言模型的结构化剪枝。自然语言处理经验方法会议(EMNLP)。arX输入:cs。CL/1910.04732号
[397] 王建桥、王佳磊、刘吉和张彤。2018.用于通信高效分布式优化的梯度稀疏化。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1710.09854
[398] Alex Warstadt、Amanpriet Singh和Samuel R Bowman。2019.神经网络可接受性判断。计算语言学协会学报7(2019),625-641。arX输入:cs。CL/1805.12471号
[399] 魏炳珍、徐孙、任宣成和徐晶晶。2017.卷积神经网络的最小努力反向传播。(2017). arX输入:cs。LG/1709.05804
[400] 魏文、吴春鹏、王燕丹、陈依然和李海,2016。深度神经网络中的结构化稀疏性学习。神经信息处理系统进展(NeurIPS)。arXiv:cs。电话:1608.03665
[401] David White和Panos A.Ligomenides。1993年。GANNet:神经网络设计中优化拓扑和权重的遗传算法。人工神经网络国际研讨会论文集:神经计算的新趋势。
[402] D.Whitley和C.Bogart。1990.连通性的进化:使用遗传算法修剪神经网络。国际神经网络联合会议(IJCNN)。
[403] Adina Williams、Nikita Nangia和Samuel R Bowman。2018.一个广泛覆盖的挑战语料库,通过推理来理解句子。计算语言学协会北美分会会议:人类语言技术(NAACL)。arX输入:cs。CL/1704.05426号
[404] 彼得·威廉姆斯。1995.贝叶斯正则化和拉普拉斯先验剪枝。神经计算7,1(1995),117-143。
[405] 米切尔·沃茨曼(Mitchell Wortsman)、阿里·法哈迪(Ali Farhadi)和穆罕默德·拉斯特加里(Mohammad Rastegari),2019年,《发现神经接线》。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1906.00586
[406] Mitchell Wortsman、Vivek Ramanujan、Rosanne Liu、Aniruddha Kembhavi、Mohammad Rastegari、Jason Yosinski和Ali Farhadi。2020年,超级市场处于叠加状态。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2006.14769号
[407] 吴玉华、埃尔曼·曼西莫夫、罗杰·格罗斯、廖顺和巴吉米,2017年。使用Kronecker-factor近似的深度强化学习的可扩展信任区域方法。神经信息处理系统进展(NeurIPS)。5285-5294. arX输入:cs。LG/1708.05144
[408] Xia Xiao、Zigeng Wang和Sangustevar Rajasekaran。2019.AutoPrune:通过正则化辅助参数自动进行网络修剪。神经信息处理系统进展(NeurIPS)。https://papers.nips.cc/paper/2019/hash/4efc9e02abdab6b6166251918570a307-摘要.html
[409] 徐金华(Jinhua Xu)和何伟强(Daniel WC Ho)。2006.基于节点依赖性和雅可比秩缺陷的新训练和修剪算法。神经计算70,1-3(2006),544-558。
[410] 雅口安司、铃木太极、浅野和太郎、尼塔修平、坂田由纪夫和谷泽明治。2018.Adam在整流神经网络中诱导隐式权重稀疏性。在国际机器学习和应用会议(ICMLA)上。arX输入:cs。LG/1812.08119
[411] 杨定庆、阿明·加塞马扎尔、任晓伟、马克西米利安·戈卢布、盖伊·勒米厄和米兹科·利斯。2020a年。Procrustes:稀疏深度神经网络训练的数据流和加速器。国际微体系结构研讨会(MICRO)。arX输入:cs。东北/2009.10976
[412] 杨焕瑞、魏文和海莉。2020b。DeepHoyer:学习具有可微尺度不变稀疏测度的稀疏神经网络。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1908.09979
[413] Tien-Ju Yang、Yu-Hsin Chen和Vivienne Sze。2017.使用能量感知修剪设计节能卷积神经网络。计算机视觉和模式识别会议(CVPR)。arX输入:cs。CV/1611.05128号
[414] 叶建波(Jianbo Ye)、卢欣(Xin Lu)、林哲(Zhe Lin)和王詹姆士(James Z Wang)。2018年,重新思考卷积层通道修剪中的小范数信息假设。在国际学习代表会议(ICLR)上。arXiv:cs。LG/1802.00124
[415] 毛烨、龚成岳、聂丽珍、周丹尼、亚当·克莱文斯和刘强。2020年,良好的子网显著存在:通过贪婪的正向选择进行修剪。在国际机器学习会议(ICML)上。arX输入:cs。LG/2003.01794
[416] 叶绍凯、徐凯迪、刘思嘉、程浩、兰布雷支、张欢、周敖君、马凯生、王彦之和薛琳。2019年。对抗稳健性vs.模型压缩,或两者兼而有之?。国际计算机视觉会议。arX输入:cs。简历/1903.12561
[417] 尹鹏航、柳建成、张帅、Stanley Osher、Qi Yingyong和Jack Xin。2019.理解训练激活量化神经网络中的直通估计。在国际学习代表会议(ICLR)上。arXiv:cs。LG/1903.05662·Zbl 1422.90066号
[418] 游浩然、李朝建、徐鹏飞、傅永干、王悦、陈晓翰、理查德·巴拉纽克、王章扬和林英彦。2020年。提早入场券:面向更高效的深层网络培训。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1909.11957
[419] You中慧、Kun Yan、Jinmian Ye、Meng Ma和Ping Wang。2019.门装饰器:用于加速深度卷积神经网络的全局滤波器修剪方法。神经信息处理系统进展(NeurIPS)。arX输入:cs。简历/1909.08174
[420] 董瑜、弗兰克·塞德、李刚和李登。2012.利用深度神经网络中的稀疏性进行大词汇量语音识别。国际声学、语音和信号处理会议(ICASSP)。
[421] 余洁草、Andrew Lukefahr、David Palframan、Ganesh Dasika、Reetuparna Das和Scott Mahlke。2017.手术刀:定制DNN修剪以实现底层硬件并行性。ACM SIGARCH计算机体系结构新闻45,2(2017),548-560。
[422] 于瑞奇、李安、陈春福、赖觉新、弗拉德·莫拉里、韩信通、高明飞、林清扬和拉里·戴维斯。2018年,NISP:使用神经元重要性得分传播修剪网络。计算机视觉和模式识别会议(CVPR)。arX输入:cs。CV/1711.05908号
[423] Xin Yu、Zhiding Yu和Srikumar Ramalingam。2018.学习深度残差网络中的严格身份映射。计算机视觉和模式识别会议(CVPR)。arX输入:cs。CV/1804.01661号
[424] 袁明,林毅,2006。分组变量回归中的模型选择和估计。英国皇家统计学会期刊:B系列(统计方法)68,1(2006),49-67·Zbl 1141.62030号
[425] Chulhee Yun、Yin-Wen Chang、Srindah Bhojanapalli、Ankit Singh Rawat、Sashank J.Reddi和Sanjiv Kumar。2020年O(n)连接足够明确:稀疏变压器的通用近似性。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2006.04862
[426] Manzil Zaheer、Guruganesh大师、Avinava Dubey、Joshua Ainslie、Chris Alberti、Santiago Ontanon、Philip Pham、Anirudh Ravula、Qifan Wang、Li Yang等人,2020年。大鸟:长镜头的变形金刚。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/2007.14062
[427] 曾文元(Wenyuan Zeng)和拉奎尔·厄塔桑(Raquel Urtasun)。2019.MLPrune:用于自动神经网络压缩的多层修剪。(2019).https://openreview.net/forum?id=r1g5b2RcKm
[428] 曾晓琴(Xiaoqin Zeng)和杨晓琴(Daniel S Yeung)。2006.使用量化灵敏度测量的多层感知器的隐藏神经元修剪。神经计算69,7-9(2006),825-837。
[429] 张志远(Chiyuan Zhang)、萨米·本吉奥(Samy Bengio)、莫里茨·哈德(Moritz Hardt)、本杰明·雷希特(Benjamin Recht)和奥里奥·维尼亚尔(Oriol Vinyals)。2017.理解深度学习需要重新思考泛化。在国际学习代表会议(ICLR)上。arX输入:cs。LG/1611.03530
[430] 张嘉琪、陈相如、宋明聪和李涛,2019年。急切修剪:深度神经网络快速训练的算法和架构支持。国际计算机体系结构研讨会(ISCA)。
[431] 张洁芳、李清恩、刘振英、邵毅、科克勒和张正亚。2019a年。SNAP:1.67 21.55TOPS/W稀疏神经加速处理器,用于16nm CMOS中的非结构化稀疏深层神经网络推断。超大规模集成电路研讨会。
[432] Jeff(Jun)Zhang、Parul Raj、Shuayb Zarar、Amol Ambardekar和Siddharth Garg。2019b。CompAct:基于CNN加速的低功率收缩阵列芯片上动作压缩。ACM事务处理。嵌入。计算。系统18,5s,第47条(2019年10月),24页。
[433] 张世进、杜紫东、张磊、兰慧颖、刘绍伊、李凌、齐国、陈天石和陈云吉。2016年,Cambricon-X:稀疏神经网络加速器。国际微体系结构研讨会(MICRO)。
[434] 张哲凯(Zhekai Zhang)、王汉瑞(Hanrui Wang)、宋汉(Song Han)和威廉·戴利(William J.Dally)。2020年。SpArch:稀疏矩阵乘法的高效架构。高性能计算机体系结构国际研讨会(HPCA)。arX输入:cs。银币/2002.08947
[435] 赵广祥、林俊阳、张志远、任宣城、戚苏、徐孙。2019a年。显性稀疏变压器:通过显性选择集中注意力。(2019). arX输入:cs。第1912.11637页
[436] 赵启斌、杉山正史、袁隆浩和安杰伊·奇乔基。2019b年。利用环形结构网络学习有效的张量表示。国际声学、语音和信号处理会议(ICASSP)。arX输入:cs。NA/1705.08286
[437] 周桂安(Guian Zhou)和斯珍妮(Jennie Si),1999年。基于子集的乙状神经网络训练和剪枝。神经网络12,1(1999),79-89·Zbl 0934.68078号
[438] Hao Zhou、Jose M Alvarez和Fatih Porikli。2016.少即是多:走向紧凑型CNN。欧洲计算机视觉会议(ECCV)。
[439] 海蒂·周、珍妮丝·兰、罗莎娜·刘和杰森·约辛斯基。2019.解构彩票:零、标志和超人面具。神经信息处理系统进展(NeurIPS)。arX输入:cs。LG/1905.01067
[440] X.Zhou、Z.Du、Q.Guo、S.Liu、C.Liu、C.Wang、X.Zhuo、L.Li、T.Chen和Y.Chen。2018年,Cambricon-S:通过合作软件/硬件方法解决稀疏神经网络中的不规则性。国际微体系结构研讨会(MICRO)。
[441] 朱敬阳、姜敬波、陈西子和徐池英。2018年,SparseNN:利用输入和输出稀疏性的能效神经网络加速器。InDesign,Automation&Test in Europe Conference&Exhibition(日期)。arX输入:cs。LG/1711.01263号
[442] 朱敬阳、钱志良、徐池英。2016年,LRADNN:使用低秩近似的高吞吐量和节能深度神经网络加速器。在亚洲和南太平洋设计自动化会议(ASP-DAC)上。
[443] Michael Zhu和Suyog Gupta。2017.修剪还是不修剪:探索修剪对模型压缩的效果。(2017). arXiv:stat.ML/1710.01878
[444] 庄涛、张志萱、黄玉恒、曾晓毅、双凯、李翔,2020年。使用极化正则器的神经元级结构化修剪。神经信息处理系统进展(NeurIPS)。https://proceedings.neurips.cc/paper/2020/哈希/703957b6dd9e3a7980e040bee50ded65-Abstract.html
[445] 庄伟壮、谭明奎、庄伯翰、刘静、郭勇、吴庆耀、黄俊洲和朱金辉。2018.深度神经网络的识别通道修剪。神经信息处理系统进展(NeurIPS)。arX输入:cs。CV/1810.11809
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。