×

深层神经网络算法的再思考。 (英语) 兹比尔1462.68168

摘要:我们考虑深度神经网络的实现效率。随着机器学习成为高性能计算的驱动因素之一,硬件加速器越来越受到关注。在这些加速器中,描述神经网络的有向图可以实现为描述布尔电路的有向图。我们使这一观察变得精确,从而自然地将实际神经网络理解为离散函数,并表明所谓的二值化神经网络功能完整。总的来说,我们的结果表明值得考虑作为神经网络的布尔电路这就引出了一个问题,即哪些电路拓扑是有前途的。我们认为,连续性是学习中泛化的核心,探讨了数据编码、网络拓扑和节点功能之间的交互作用以实现连续性,并提出了一些有待进一步研究的问题。作为弥合神经网络加速器连续视图和布尔视图之间差距的第一步,我们介绍了我们在LUTNet(一种新的现场可编程门阵列推理方法)上的一些最新研究结果。最后,我们总结了其他可能的富有成果的研究途径,以桥接神经网络的连续和离散观点。

MSC公司:

68T07型 人工神经网络与深度学习
2007年8月 计算机体系结构的数学问题
2006年第68季度 作为计算模型的网络和电路;电路复杂性
68兰特 计算机科学中的图论(包括图形绘制)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Goodfellow I,Bengio Y,Courville A.2016深度学习。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1373.68009号
[2] Wang E,Davis J,Zhao R,Ng H-C,Niu X,Luk W,Cheung P,Constantinides G.2019定制硬件的深度神经网络近似:我们过去在哪里,现在在哪里。ACM计算。Surv公司。52 .
[3] Searcóid MO.2007公制空间。德国柏林:施普林格·Zbl 1109.54001号
[4] Scheinberg K.2016监督机器学习优化方法中随机性的演变。SIAG/OPT观点和新闻(编辑:S Wild),第24卷,第1-7页。http://wiki.siam.org/siag-op/index.php/View_and_News。
[5] LeCun Y.1989概括和网络设计策略。多伦多大学,技术报告。CRG-TR-89-4。
[6] Hochreiter S,Schmidhuber J.1997长期短期记忆。神经计算。9, 1735-1780. (doi:10.1162/neco.1997.9.8.1735)·doi:10.1116/neco.1997.9.8.1735
[7] Kahn G.1974用于并行编程的简单语言的语义。程序中。1974年8月5日至10日在瑞典斯德哥尔摩举行的国际信息处理联合会信息处理大会。荷兰阿姆斯特丹:荷兰北部·Zbl 0299.68007号
[8] Strang G.2018深度学习的功能。SIAM新闻,12月。
[9] Blum L,Shub M,Smale S.1989关于实数的计算和复杂性理论:NP-完备性,递归函数和通用机器。牛市。美国数学。第21页,第1-46页。(doi:10.1090/S0273-0979-1989-15750-9)·Zbl 0681.03020号 ·doi:10.1090/S0273-0979-1989-15750-9
[10] Hornik K.1991多层前馈网络的近似能力。神经网络。4, 251-257. (doi:10.1016/0893-6080(91)90009-T)·doi:10.1016/0893-6080(91)90009-T
[11] Neal R.1994无限网络先验。多伦多大学,技术报告。CRG-TR-94-1。
[12] Du SS,Zhai X,Póczos B,Singh A.2018梯度下降可证明优化了过参数化神经网络。CoRR公司(http://arxiv.org/abs/quant-ph/1810.02054).
[13] Brayton R,Hachtel G,Sangiovanni-Vincentelli A.1990多级逻辑综合。程序。IEEE 78264-300标准。(doi:10.1109/5.52213)·doi:10.1109/5.52213
[14] 浮点运算IEEE标准。IEEE标准754-2008。2008
[15] Har-Even B.2018 PowerVR Series2NX:提高嵌入式人工智能的门槛。www.imgtec.com/blog/PowerVR-Series2NX-Raising-the-bar-for-embedded-AI/。
[16] Higham N.2002数值算法的准确性和稳定性。宾夕法尼亚州费城:工业和应用数学学会·Zbl 1011.65010号
[17] Wolf C.2013 Yosys开放合成套件。www.clifford.at/yosys/。
[18] Gephi 2017开放图形即平台。http://gephi.org/。
[19] Courbariaux M,Bengio Y.2016二元化神经网络:训练深度神经网络,权重和激活限制为+1或-1。CoRR公司(http://arxiv.org/abs/quant-ph/abs/1602.02830).
[20] Umuroglu Y、Fraser NJ、Gambardella G、Blott M、Leong P、Jahre M、Visser K.2017 FINN:快速、可扩展的二值化神经网络推理框架。程序中。ACM/SIGDA国际交响乐团。关于现场可编程门阵列,加利福尼亚州蒙特雷,2017年2月22日至24日,第65-74页。纽约州纽约市:ACM。
[21] 沃伦H.2012《黑客的喜悦》,第二版。马萨诸塞州雷丁:艾迪森·卫斯理。
[22] Triggs R.2018进一步了解Arm的机器学习硬件。www.androidauthority.com/arm-project-trillium-842770/。
[23] Clote P,Kranakis E.2002布尔函数和计算模型。德国柏林:施普林格·兹比尔1016.94046
[24] Venkatesh G,Nurvitadhi E,Marr D.2017使用低精度和稀疏性加速深层卷积神经网络。程序中。IEEE ICASSP,洛杉矶新奥尔良,2017年3月5-9日。新泽西州皮斯卡塔韦:IEEE。
[25] Su J.2018考虑模型冗余的现场可编程门阵列人工神经网络加速。伦敦帝国理工学院,技术报告。
[26] Weste N,Harris D.2002 CMOS VLSI设计:电路和系统观点。英国伦敦:皮尔逊。
[27] Koren I.2001计算机算术算法。马萨诸塞州纳蒂克:A.K.彼得斯·Zbl 0994.68186号
[28] Trivedi KS,Ercegovac MD.1977除法和乘法的在线算法。IEEE传输。计算。26, 681-687. (doi:10.1109/TC.1977.1674901)·Zbl 0406.68040号 ·doi:10.10109/TC.177.1674901
[29] Ercegovac M,Lang T.2003数字算法。加利福尼亚州洛斯阿尔托斯:Morgan Kaufmann。
[30] Savage C.1997组合格雷码综述。SIAM版本39,605-629。(doi:10.1137/S0036144595295272)·Zbl 1049.94513号 ·doi:10.1137/S0036144595295272
[31] Bondy J.1976图论及其应用。荷兰阿姆斯特丹:爱思唯尔·Zbl 1226.05083号
[32] Gillis N,Glineur F.2014最大边双液问题的连续表征。J.全球优化。58, 439-464. (doi:10.1007/s10898-013-0053-2)·Zbl 1305.90349号 ·doi:10.1007/s10898-013-0053-2
[33] Hauck S,DeHon A.2007可重构计算:基于FPGA的计算的理论和实践。加利福尼亚州洛斯阿尔托斯:Morgan Kaufmann·Zbl 1147.68435号
[34] Wang E,Davis J,Cheung P,Constantinides G.2019 LUTNet:FPGA软逻辑中的推理反思。程序中。IEEE国际标准。2019年2月24日至26日,加利福尼亚州海滨,现场可编程定制计算机。纽约州纽约市:ACM。
[35] Ghasemzadeh M,Samragh M,Koushanfar F.2018 ReBNet:残差二值化神经网络。IEEE国际标准。2018年4月29日至5月,科罗拉多州博尔德,现场可编程定制计算机。新泽西州皮斯卡塔韦:IEEE。
[36] Han S、Pool J、Tran J、Dally WJ。2015年学习高效神经网络的权重和连接。神经信息处理系统会议。加拿大多伦多:多伦多大学。www.cs.toronto.edu/kriz/learning-features-2009-TR.pdf。
[37] Krizhevsky A.2009从微小图像中学习多层特征。多伦多大学,技术报告。
[38] Zoph B,Le QV。2016神经架构搜索与强化学习。CoRR公司(http://arxiv.org/abs/quant-ph/1611.01578). [在线]。可用:http://arxiv.org/abs/1611.01578。
[39] 奎因W.1952简化真值函数的问题。美国数学。周一。59, 521-531. (doi:10.1080/00029890.1952.11988183)·Zbl 0048.24503号 ·doi:10.1080/00029890.1952.11988183
[40] Ruddell R,Sangiovanni Vincentelli A.1987用于PLA优化的多值最小化。IEEE传输。计算机辅助设计。6, 727-750. (doi:10.1109/TCAD.1987.1270318)·doi:10.1109/TCAD.1987.1270318
[41] Haaswijk W,Mishchenko A,Soeken M,Micheli GD.2018使用DAG拓扑族的基于SAT的精确合成。程序中。设计自动化会议,加利福尼亚州旧金山,2018年6月24-29日。纽约州纽约市:ACM。
[42] Rissanen J.1978通过最短数据描述建模。Automatica自动化14,465-471。(doi:10.1016/0005-1098(78)90005-5)·Zbl 0418.93079号 ·doi:10.1016/0005-1098(78)90005-5
[43] Gouk H、Frank E、Pfahringer B、Cree M.2018通过加强Lipschitz连续性实现神经网络的正则化。CoRR公司(http://arxiv.org/abs/quant-ph/1804.04368). [在线]。可用:https://arxiv.org/abs/1804.04368。
[44] Scaman K,Virmaux A.2018深度神经网络的Lipschitz正则性:分析和有效估计。程序中。神经信息处理系统,加拿大蒙特利尔,2018年12月3-8日。第3839-3848页。https://papers.nips.cc/paper/7640-lipschitz-regularity-of-deep-neural-networks-analysis-and-effecient-eestimation.pdf。
[45] Dietterich T,Bakiri G.1995通过纠错输出代码解决多类学习问题。J.阿蒂夫。智力。第263-286号决议。(doi:10.1613/jair.105)·Zbl 0900.68358号 ·doi:10.1613/jair.105
[46] Gupta S,Agrawal A,Gopalakrishnan K,Narayanan P.2015有限数值精度的深度学习。程序中。第32届机器学习国际会议,法国里尔,2015年7月6日至11日。第1737-1746页。http://proceedings.mlr.press/v37/gupta15.pdf。
[47] Hopkins M,Mikaitis M,Lester D,Furber S.2019求解神经节点的随机取整和降精度不动点算法。CoRR公司(http://arxiv.org/abs/quant-ph/1904.11263). ·Zbl 1462.65081号
[48] Murphy K.2012机器学习:概率视角。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1295.68003号
[49] Nielson F、Nielson H、Hankin C.2010《程序分析原理》。德国柏林:施普林格·Zbl 0932.68013号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。