×

GPU上精确和混合精度线性代数内核的性能和能耗。 (英语) Zbl 1493.65282号

摘要:本文介绍了精确和混合精度线性代数内核的实现、性能和能量消耗,包括内积(DOT)、密集矩阵向量乘(GEMV)、密集阵乘(GEMM)和压缩稀疏行(CSRMV)格式的稀疏矩阵向量乘法(SpMV),在图形处理单元(GPU)上。我们在实现中采用了混合精度设计,这使得执行内部浮点运算的精度至少是输入和输出数据精度的2倍成为可能:对于二进制32数据,计算在二进制64上进行,对于二进制64数据,使用精确的内积算法(称为Dot2)以2倍的精度进行计算。我们开发了高度优化的实现,可以实现接近上限的性能。根据我们对Volta架构GPU Titan V的评估,我们得出了以下观察结果:由于Dot2操作消耗的二进制64指令是11倍,与标准二进制64实现相比,GEMM需要相应的开销(从执行时间和能量消耗来看)。另一方面,DOT、GEMV和CSRMV的准确性得到了提高,执行时间开销很小,能源需求开销约为30%。

MSC公司:

65日元10 特定类别建筑的数值算法
65传真 数值线性代数
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 劳森,C。;汉森,R。;Kincaid,D。;Krogh,F.,fortran用法的基本线性代数子程序,ACM Trans。数学。软件,5308-323(1979)·Zbl 0412.65022号
[2] Ogita,T。;臀部,S.M。;Oishi,S.,《精确和和点积》,SIAM J.Sci。计算。,26, 1955-1988 (2005) ·Zbl 1084.65041号
[3] Kogge,P。;博卡尔,S。;坎贝尔博士。;卡尔森,W。;Dally,W。;丹尼奥,M。;Franzon,P。;哈罗德,W。;希勒,J。;Keckler,S。;克莱因,D。;Lucas,R.,《ExaScale计算研究:实现ExascaleSystems的技术挑战》,第15卷《技术》。国防高级研究计划局信息处理技术办公室(DARPA IPTO)技术代表(2008年)
[4] Li,X.S。;Demmel,J.W。;Bailey,D.H。;亨利·G。;Hida,Y。;伊斯坎达尔,J。;Kahan,W。;卡普尔,A。;M.C.马丁。;Tung,T。;Yoo,D.J.,《扩展和混合精度BLAS的设计、实现和测试》,ACM Trans。数学。软件,28,2,152-205(2000)·Zbl 1070.65523号
[5] M.Nakata,《MPACK》;多精度算术BLAS(MBLAS)和LAPACK(MLAPACK),http://mplapack.sourceforge.net。
[6] Hida,Y。;Li,X.S。;Bailey,D.H.,《双双和四双算术技术图书馆》。代表(2007),NERSC部门,劳伦斯伯克利国家实验室
[7] Dekker,T.J.,用于扩展可用精度的浮点技术,Numer。数学。,18, 224-242 (1971) ·Zbl 0226.65034号
[8] Y.Hida,X.S.Li,D.H.Bailey,四双精度浮点算法,in:Proc。第15届IEEE计算机算术研讨会,ARITH-1512001年,第155-162页。
[9] 福斯,L。;Hanrot,G。;列夫雷,V。;Pélissier,P。;Zimmermann,P.,MPFR:一个具有正确舍入的多精度二进制浮点库,ACM Trans。数学。软件,33,2,13:1-13:15(2007)·Zbl 1365.65302号
[10] 德梅尔,J。;阿伦斯,P。;Nguyen,H.D.,《高效可复制浮点求和与BLASTech》。代表UCB/EECS-2016-121(2016),加利福尼亚大学EECS系:加利福尼亚大学伯克利分校EECS系
[11] R.Iakymchak、S.Collange、D.Defour、S.Graillat、ExBLAS:可复制且准确的BLAS库,见:Proc。2015年SC'15 Exascale的数值再现性(NRE2015)·Zbl 1354.65082号
[12] D.Mukunoki,D.Takahashi,GPU上三精度BLAS子程序的实现和评估,in:Proc。IEEE第26届国际并行和分布式处理研讨会研讨会和博士论坛,IPDPSW 2012年,2012年,第1378-1386页。
[13] D.Mukunoki,D.Takahashi,使用四倍精度算法加速GPU上的krylov子空间方法,in:Proc。第十届并行处理与应用数学国际会议,PPAM 2013年,2014年,第632-642页。
[14] Knuth,D.E.,《计算机编程艺术》第2卷,半数值算法(1969年),Addison-Wesley·Zbl 0191.18001号
[15] 卡普,A.H。;Markstein,P.,高精度除法和平方根,ACM Trans。数学。软件,23561-589(1997)·兹比尔0912.65038
[16] D.Mukunoki,T.Imamura,D.Takahashi,开普勒GPU上通用矩阵向量乘法(GEMV)的快速实现,in:Proc。第23届欧洲微观组织并行、分布式和基于网络的国际会议,PDP 2015年,2015年,第642-650页。
[17] N.Bell,M.Garland,《在面向处理器上实现稀疏矩阵向量乘法》,in:Proc。高性能计算、网络、存储和分析国际会议,SC'09,第18期,2009年,第1-11页。
[18] 纳特·R。;托莫夫,S。;Dongarra,J.,《费米图形处理单元的改进岩浆宝石》,《国际高性能计算》。申请。,24, 4, 511-515 (2010)
[19] 威廉姆斯。;沃特曼,A。;Patterson,D.,《Roofline:多核架构的一个有见地的视觉性能模型》,Commun。ACM,52,4,65-76(2009)
[20] Davis,T.A。;Hu,Y.,佛罗里达大学稀疏矩阵收集,ACM Trans。数学。软件,38,1,1:1-1:25(2011)·Zbl 1365.65123号
[21] 李,A。;Hammad Mazhar,R.S。;Negrut,D.,使用CUSP、cuSPARSE和ViennaCLTech对不同矩阵格式的矩阵进行SPMV性能比较。代表TR-2015-02(2015),威斯康星大学:威斯康星-麦迪逊大学
[22] Ogita,T。;臀部,S.M。;Oishi,S.,《精确和和点积》,SIAM J.Sci。计算。,26, 6, 1955-1988 (2005) ·Zbl 1084.65041号
[23] Carson,E。;Higham,N.,《通过三种精度的迭代求精加速线性系统的求解》,SIAM J.Sci。计算。,40、2、A817-A847(2018)·Zbl 1453.65067号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。