跳到主要内容
研究论文
开放式访问

深度神经网络Winograd卷积的误差分析及精度提高

出版:2020年11月7日 出版历史

摘要

流行的深度神经网络(DNN)将其大部分执行时间用于计算卷积。Winograd系列算法可以大大减少所需的算术运算数量,并在许多DNN软件框架中使用。然而,性能的提高是以降低浮点(FP)数值精度为代价的。在本文中,我们分析了最坏情况下的FP误差,并推导了算法的范数和条件的估计。我们证明了边界随着卷积的大小呈指数增长。此外,改进算法的误差界稍低,但仍呈指数形式。我们提出了几种减少FP误差的方法。我们提出了一种基于哈夫曼编码的标准求值顺序,以减少求和误差。我们通过实验研究采样“点”的选择,并为最重要的尺寸找到经验性好的点。我们确定了与优点相关的主要因素。此外,我们还探索了其他减少FP误差的方法,包括混合判决卷积和跨DNN信道的两两求和。使用我们的方法,我们可以显著减少给定块大小的FP错误,从而允许使用更大的块大小并减少计算。

工具书类

[1]
格雷·巴拉德(Grey Ballard)、奥斯汀·本森(Austin R.Benson)、亚历克斯·德鲁因斯基(Alex Druinsky)、本杰明·利普希茨(Benjamin Lipshitz)和奥德·施瓦茨(Oded Schwartz)。2016.提高快速矩阵乘法的数值稳定性。SIAM矩阵分析与应用杂志37,4(2016),1382-1418。
[2]
诺曼·L·比格斯。2002年,《离散数学》(第二版)。牛津大学出版社,纽约州纽约市。
[3]
达里奥·比尼和格拉齐亚·洛蒂。1980.矩阵乘法快速算法的稳定性。数字数学36,1(M 1980),63-72。https://doi.org/10.1007/BF01395989
[4]
理查德·E·布拉胡特。2010.信号处理快速算法。剑桥大学出版社,纽约州纽约市。
[5]
马可·博德拉托。2007.特征2和0中单变量和多变量多项式的Toom-Cook最优乘法。在有限域算术中。计算机科学讲义,第4547卷。施普林格,116-133。
[6]
斯蒂芬·库克(Stephen A.Cook)。1966.关于函数的最小计算时间。博士论文。哈佛大学,马萨诸塞州剑桥。
[7]
詹姆斯·德梅尔(James Demmel)、伊奥娜·杜米特里乌(Ioana Dumitriu)、奥尔加·霍尔茨(Olga Holtz)和罗伯特·克莱恩伯格(Robert Kleinberg),2007年。快速矩阵乘法是稳定的。数字数学106,2(2007年4月),199-224。
[8]
詹姆斯·德梅尔和Yozo Hida。2004.准确有效的浮点求和。SIAM科学计算杂志25(2004),1214--1248。
[9]
沃尔特·高斯基(Walter Gautschi)。1974.范德蒙德矩阵逆的范数估计。Numerische Mathematik。23(1974年8月),337--347。
[10]
沃尔特·高斯基(Walter Gautschi)。1990年。Vandermonde系统的(不)稳定性如何?渐近与计算分析124(1990),193-210。
[11]
David Goldberg,1991年。每一位计算机科学家都应该了解浮点运算。ACM计算调查23,1(1991),5-48。
[12]
Gene H.Golub和Charles F.Van Loan。2013.矩阵计算(第4版)。约翰·霍普金斯大学出版社,马里兰州巴尔的摩。
[13]
何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在2016年IEEE计算机视觉和模式识别会议论文集(CVPR'16)上。770--778.
[14]
尼古拉斯·J·海姆。2002.数值算法的准确性和稳定性(第二版)。SIAM出版物,宾夕法尼亚州费城。
[15]
大卫·哈夫曼(David Huffman)。1952.一种用于构造最小冗余码的方法。IRE会议记录40,9(1952年9月),1098--1101。
[16]
威廉·卡恩(William Kahan)。1996年,《数值计算概率误差分析的不可能性》。2020年9月30日检索自https://people.eecs.berkeley.edu/~wkahan/改良剂.pdf。
[17]
唐纳德·科努特(Donald E.Knuth)。1998年,《计算机编程艺术》。艾迪森·韦斯利。
[18]
安德鲁·拉文和斯科特·格雷。2016.卷积神经网络的快速算法。2016年IEEE计算机视觉和模式识别会议记录(CVPR’16)。IEEE,加利福尼亚州洛斯阿拉米托斯,4013-4021。
[19]
维克多·Y·潘。2016年,Vandermonde矩阵有多糟糕?SIAM矩阵分析与应用杂志37,2(2016),676-694。
[20]
科沙布·K·帕希。2007.超大规模集成电路数字信号处理系统:设计与实现。John Wiley 8 Sons,纽约州纽约市。
[21]
齐格弗里德·M·朗普(Siegfried M.Rump)、小田武史(Takeshi Ogita)和小西信义(Shin’ichi Oishi)。2008年a。精确浮点求和第一部分:忠实舍入。SIAM科学计算杂志31,1(2008),189-224。
[22]
齐格弗里德·M·朗普(Siegfried M.Rump)、小田武史(Takeshi Ogita)和小西信义(Shin’ichi Oishi)。2008年b。精确浮点求和第二部分:符号,K折忠实,四舍五入。SIAM科学计算杂志31,2(2008),1269--1302。
[23]
Christian Szegedy、Wei Liu、Yangqing Jia、Pierre Sermanet、Scott Reed、Dragomir Angelov、Dumitru Erhan、Vincent Vanhoucke和Andrew Rabinovich。2015年,深入卷积。2015年IEEE计算机视觉和模式识别会议(CVPR’15)论文集。1--9.
[24]
Richard Tolimieri、Myoung An和Chao Lu,1997年。离散傅里叶变换和卷积算法(第二版)。Springer Verlag,纽约州纽约市。
[25]
安德烈·图姆。1963.实现整数乘法的函数元方案的复杂性。《苏维埃数学-Doklady 3》(1963),714-716。
[26]
Lloyd N.Trefethen和David Bau。1997.数值线性代数。宾夕法尼亚州费城SIAM。
[27]
Kevin Vincent、Kevin Stephano、Michael Frumkin、Boris Ginsburg和Julien Demouth。2017.关于提高Winograd卷积的数值稳定性。在第五届学习表现国际会议的会议记录中。4
[28]
詹姆斯·威尔金森。1994.代数过程中的舍入误差。多佛出版社,纽约州纽约市。
[29]
什穆埃尔·温诺格拉德(Shmuel Winograd)。1980年a。算术复杂性计算。SIAM出版物,英国布里斯托尔。
[30]
什穆埃尔·温诺格拉德(Shmuel Winograd)。1980年b。信号处理和计算复杂性。IEEE声学、语音和信号处理国际会议(ICASSP’1980)会议记录。IEEE,加利福尼亚州洛斯阿拉米托斯,94-101。

引用人

查看全部
  • (2024)Wino Vidi Vici:克服8位Winograd卷积的数值不稳定性,以在边缘上实现精确的推理加速2024年IEEE/CVF计算机视觉应用冬季会议(WACV)10.1109/WACV57701.2024.00013(53-62)在线发布日期:2024年1月3日
  • (2023)快速卷积遇到低精度:探索现代CPU上高效的量化Winograd卷积ACM架构和代码优化事务10.1145/363295621:1(1-26)在线发布日期:2023年11月17日
  • (2023)利用数论变换加速深度卷积神经网络IEEE电路与系统汇刊I:常规论文10.1109/TCSI.2022.321452870:1(315-326)在线发布日期:2023年1月
  • 显示更多引用人

建议

评论

信息和贡献者

问询处

发布于

封面图片ACM数学软件汇刊
ACM数学软件汇刊 第46卷第4期
2020年12月
272页
国际标准编号:0098-3500
EISSN公司:1557-7295
内政部:10.1145/3430683
期刊目录
如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

出版商

计算机协会

美国纽约州纽约市

出版历史

出版:2020年11月7日
认可的:2020年7月1日
修订过的:2020年3月1日
收到:2018年8月1日
在TOMS中发布体积46,问题4

权限

请求对此文章的权限。

检查更新

作者标记

  1. 浮点错误
  2. Toom-Cook算法
  3. Winograd算法
  4. 卷积
  5. 深度神经网络
  6. 数值分析

限定符

  • 研究文章
  • 研究
  • 推荐

资金来源

  • 爱尔兰科学基金会
  • Lero-the爱尔兰软件研究中心

贡献者

其他指标

文献计量学和引文

文献计量学

文章指标

  • 下载次数(过去12个月)212
  • 下载次数(最近6周)32
反映截至2024年9月21日的下载量

其他指标

引文

引用人

查看全部
  • (2024)Wino Vidi Vici:克服8位Winograd卷积的数值不稳定性,以在边缘上实现精确的推理加速2024年IEEE/CVF计算机视觉应用冬季会议(WACV)10.1109/WACV57701.2024.00013(53-62)在线发布日期:2024年1月3日
  • (2023)快速卷积遇到低精度:探索现代CPU上高效的量化Winograd卷积ACM体系结构和代码优化汇刊10.1145/363295621:1(1-26)在线发布日期:2023年11月17日
  • (2023)利用数论变换加速深度卷积神经网络IEEE电路与系统汇刊I:常规论文10.1109/TCSI.2022.321452870:1(315-326)在线发布日期:2023年1月
  • (2023)HAW:高效Winograd卷积的硬件点选择IEEE信号处理信函10.1109/LSP.2023325886330(269-273)在线发布日期:2023年
  • (2023)多核处理器的高效可移植Winograd卷积超级计算杂志2007年10月17日/11227-023-05088-479:10(10589-10610)在线发布日期:2023年2月12日
  • (2023)ARM处理器上深度学习卷积算法的性能-能量权衡超级计算杂志2007年10月17日/11227-023-05050-479:9(9819-9836)在线发布日期:2023年1月21日
  • (2022)moTuner(移动调谐器)第19届ACM国际计算前沿会议记录10.1145/3528416.3530231(94-102)在线发布日期:2022年5月17日
  • (2022)深度神经网络的Winograd卷积:有效的点选择嵌入式计算系统ACM事务10.1145/352406921:6(1-28)在线发布日期:2022年12月12日
  • (2022)富士通A64FX处理器上用于深度学习推断的卷积算子2022年IEEE第34届计算机体系结构与高性能计算国际研讨会(SBAC-PAD)10.1109/SBAC-PAD55451.2022.00027号(1-10)在线发布日期:2022年11月
  • (2022)利用矢量内蕴和OpenMP实现基于Winograd的卷积2022年第30届欧洲微型计算机并行、分布式和基于网络的处理国际会议(PDP)10.1109/PDP55904.2022.00015(39-46)在线发布日期:2022年3月
  • 显示更多引用人

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用联机查看电子阅读器.

电子阅读器

HTML格式格式

在中查看本文HTML格式格式。

HTML格式

获取访问权限

登录选项

完全访问权限

媒体

数字

其他

桌子

分享

分享

共享此出版物链接

在社交媒体上分享