×

一种用于误差有界近似计算的框架,并应用于点积。 (英语) Zbl 1492.65124号

摘要:近似计算技术在多个领域成功地降低了计算和功耗成本,它权衡了算法的计算精度以获得更好的性能和能源效率。然而,高性能计算中对错误敏感的应用程序无法从现有的近似计算策略中获益,而这些策略的开发没有保证错误边界。虽然领域专家可以为单个高性能计算应用程序开发近似计算技术,但这通常需要额外的理论分析和潜在的广泛软件修改。因此,开发低水平误差有界近似计算策略是可取的,该策略可以引入任何高性能计算应用程序,而不需要额外的分析或重大的软件更改。本文提出了一个设计误差有界近似计算策略的通用框架,并将其应用于点积核的开发量子点–误差有界的近似点积核。在引入量子点,我们进行了理论分析,得出了由量子点进行了实证测试,以说明导出的误差界的紧密性,并证明量子点在合成数据集上,以及两个科学基准——共轭梯度(CG)和幂方法。在某些情况下,使用量子点对于CG中的点积,可以在不增加迭代次数的情况下将许多分量量化为半精度,从而使用双精度点积收敛到与CG相同的解。

MSC公司:

65层99 数值线性代数
65G20个 具有自动结果验证的算法
65克50 舍入误差
6504年 计算机算术的数值算法等。
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] IEEE浮点运算标准,IEEE Std 754-2019(IEEE 754-2008修订版),2019年,第1-84页,https://doi.org/10.109/IEEESTD.2019.8766229。
[2] K.Ahmad、H.Sundar和M.Hall,GPU的数据驱动混合精度稀疏矩阵向量乘法,ACM Trans。阿基特。代码优化。,16 (2019), https://doi.org/10.1145/3371275。
[3] C.Alvarez、J.Corbal和M.Valero,浮点多媒体应用的模糊记忆,IEEE Trans。计算。,54(2005),第922-927页,https://doi.org/10.109/TC.2005.119。
[4] W.-F.Chiang、M.Baranowski、I.Briggs、A.Solovyev、G.Gopalakrishnan和Z.Rakamaricí,严格浮点混合精度调优,第44届ACM SIGPLAN编程语言原理研讨会论文集,2017年,纽约,2017,ACM,第300-315页,https://doi.org/10.1145/3009837.3009846。 ·Zbl 1380.68116号
[5] R.Dembo、S.Eisenstat和T.Steihaug,不精确牛顿方法,SIAM J.Numer。分析。,19(1982),第400-408页,https://doi.org/10.1137/0719025。 ·Zbl 0478.65030号
[6] Z.Du、K.Palem、A.Lingamneni、O.Team、Y.Chen和C.Wu,《利用机器学习应用程序的容错能力设计高效加速器》,载于《第19届亚洲和南太平洋设计自动化会议论文集》,2014年,第201-206页,https://doi.org/10.109/ASPDAC.2014.6742890。
[7] S.Eldridge、F.Raudies、D.Zou和A.Joshi,超越函数近似的基于神经网络的加速器,第24版大湖区超大规模集成电路研讨会论文集,GLSVLSI’14,ACM,纽约,2014年,第169-174页,https://doi.org/10.1145/2591513.2591534。
[8] M.Fasi、N.Higham、M.Mikaitis、Srikara和Pranesh,NVIDIA张量核的数值行为,Peer J.Compute。科学。,7(2021),e330。
[9] G.H.Golub和C.F.van Loan,《矩阵计算》,第4版,约翰霍普金斯大学出版社,马里兰州巴尔的摩,2013年·Zbl 1268.65037号
[10] A.Grama、V.Kumar、A.Gupta和G.Karypis,《并行计算导论》,皮尔逊出版社,伦敦,2003年·Zbl 0861.68040号
[11] V.Gupta、D.Mohapatra、S.P.Park、A.Raghunathan和K.Roy,IMPACT:低功耗近似计算的不精确加法器,《IEEE/ACM低功耗电子与设计国际研讨会论文集》,2011年,第409-414页,https://doi.org/10.109/ISLPED.2011.5993675。
[12] A.Haidar、H.Bayraktar、S.Tomov、J.Dongarra和N.J.Higham,使用GPU上的张量核加速线性系统求解的混合精度迭代求精,Proc。A、 476(2020),20200110,https://doi.org/10.1098/rspa.2020.0110。 ·Zbl 1472.65174号
[13] R.Hegde和N.Shanbhag,通过算法容错实现节能信号处理,《低功耗电子与设计国际研讨会论文集》,1999年,第30-35页,https://doi.org/10.1145/313817.313834。
[14] M.Heroux和F.Moessbauer,《高性能计算共轭梯度:原始Mantevo Miniapp》,https://github.com/Mantevo/HPCCG网站, 2017.
[15] M.R.Hestenes和E.Stiefel,求解线性系统的共轭梯度方法,J.Res.Natl。仪表架。技术。,49(1952年),第409-435页·Zbl 0048.09901号
[16] P.Lindstrom,固定速率压缩浮点数组,IEEE Trans。视觉。计算。图表。,20 (2014), https://doi.org/10.109/TVCG.2014.2346458。
[17] S.Markidis、S.W.Chien、E.Laure、I.Peng和J.Vetter,NVIDIA张量核心可编程性、性能和精度,摘自IEEE国际并行和分布式处理研讨会(IPDPSW)会议记录,2018年,第522-531页。
[18] H.Menon,M.O.Lam,D.Osei-Kuffuor,M.Schordan,S.Lloyd,K.Mohror,J.Hittinger,ADAPT:算法微分应用于浮点精度调整,《高性能计算、网络、存储和分析国际会议论文集》,2018年,第614-626页。
[19] D.Michie,“备忘录”功能和机器学习,《自然》,218(1968),第19-22页。
[20] R.V.Mises和H.Pollaczek-Geiringer,Praktische verfahren der gleichungsaufloísung,ZAMM J.Appl。数学。机械。,9(1929),第152-164页,https://doi.org/10.1002/zamm.19290090206。
[21] S.Mittal,《近似计算技术综述》,ACM Comput。调查。,48 (2016), https://doi.org/10.1145/2893356。
[22] NVIDIA、特斯拉V100 GPU架构、,http://images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf, 2017.
[23] NVIDIA,CUDA基本线性代数子程序(CUBLAS)库API参考指南v11.2.2,https://docs.nvidia.com/cuda/cublas/index.html, 2021.
[24] NVIDIA,推力CUDA工具包文档v11.2.2,https://docs.nvidia.com/cuda/thrust/index.html, 2021.
[25] Z.Peng、X.Chen、C.Xu、N.Jing、X.Liang、C.Lu和L.Jiang,AXNet:使用端到端可训练神经网络的近似计算,发表在《国际计算机辅助设计会议论文集》,ICCAD'18,美国计算机学会,纽约,2018,https://doi.org/10.1145/3240765.3240783。
[26] C.Rubio-Gonzaílez、C.Nguyen、H.D.Nguyeen、J.Demmel、W.Kahan、K.Sen、D.H.Bailey、C.Iancu和D.Hough,《Precimonious:浮点精度调优助手》,《高性能计算、网络、存储和分析国际会议论文集》,2013年,第1-12页,https://doi.org/10.1145/25032102503296。
[27] A.Sampson,W.Ditel,E.Fortuna,D.Gnanapragasam,L.Ceze,D.Grossman,EnerJ:安全和通用低功耗计算的近似数据类型,ACM,SIGPLAN Not。,46(2011),第164-174页,https://doi.org/10.1145/1993316.1993518。
[28] B.Shim、S.Sridhara和N.Shanbhag,通过降低精度冗余实现可靠的低功耗数字信号处理,IEEE Trans。超大规模集成电路。(VLSI)系统。,12(2004),第497-510页,https://doi.org/10.109/TVLSI.2004.826201。
[29] S.Sinha和W.Zhang,使用基于记忆的近似计算的低功耗FPGA设计,IEEE Trans。超大规模集成电路。(VLSI)系统。,24(2016),第2665-2678页,https://doi.org/10.109/TVLSI.2016.2520979。
[30] L.N.Trefethen和D.Bau,《数值线性代数》,SIAM,费城,1997年·Zbl 0874.65013号
[31] V.Vassiliadis、K.Parasysis、C.Chalios、C.D.Antonopoulos、S.Lalis、N.Bellas、H.Vandierendonck和D.S.Nikolopoulos.《重要软件节能计算的编程模型和运行时系统》,载于《第20届ACM SIGPLAN并行编程原理和实践研讨会论文集》,PPoPP 2015,ACM,纽约,2015年,第275-276页,https://doi.org/10.1145/2688500.2688546。
[32] J.H.Wilkinson,《代数特征值问题》,牛津大学出版社,牛津,1988年·Zbl 0626.65029号
[33] O.Zachariadis、N.Satpute、J.Goímez-Luna和J.Olivares,用GPU张量核加速稀疏矩阵-矩阵乘法,计算。选举人。工程,88(2020),106848,https://doi.org/10.1016/j.compleceng.2020.106848。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。