×

并行预处理共轭梯度的再现性策略。 (英语) Zbl 1433.65368号

摘要:预处理共轭梯度法是数值模拟中常用的方法。虽然被广泛使用,但该解算器也因其在计算残差时缺乏准确性而闻名。在本文中,我们的目标有两个:提高求解器的准确性,同时确保其在消息传递实现中的再现性。我们从ExBLAS方法(通过保留每一位信息直到最后四舍五入)到更轻量级的面向性能的变体(通过扩展中间精度),设计并使用了各种策略。这些算法策略通过可编程性建议得到加强,以确保确定性执行。最后,我们在现代HPC系统上验证了这些策略:这两个版本在768个进程上只需29%(ExBLAS)和4%(轻量级)的开销即可提供可重复的迭代次数、残差、直接错误和向量解决方案。

MSC公司:

2005年5月 并行数值计算
65年20月 数值算法的复杂性和性能
2010年第68季度 计算模式(非确定性、并行、交互式、概率性等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] 巴雷特·R。;贝里,M。;Chan,T.F。;德梅尔,J。;J.多纳托。;Dongarra,J。;艾伊霍特,V。;波佐,R。;罗明,C。;der Vorst,H.V.,《线性系统解的模板:迭代方法的构建块》(1994),SIAM
[2] Saad,Y.,《稀疏线性系统的迭代方法》(2003),SIAM:美国宾夕法尼亚州费城SIAM·Zbl 1002.65042号
[3] 格罗普,W。;霍夫勒,T。;塔库尔,R。;Lusk,E.,《使用高级MPI:消息传递接口的现代特征》(2014),麻省理工学院出版社
[4] 劳森,C.L。;Hanson,R.J。;Kincaid,D.R。;Krogh,F.T.,Fortran使用的基本线性代数子程序,ACM Trans。数学。软件,5,3,308-323(1979)·Zbl 0412.65022号
[5] Dongarra,J.J。;克罗兹,J.D。;Hammarling,S。;Duff,I.,一组三级基本线性代数子程序,ACM Trans。数学。软件,16,1,1-17(1990)·Zbl 0900.65115号
[6] Collange,S。;迪福,D。;格雷亚特,S。;Iakymchuk,R.,《多核和多核架构并行简化的数值再现性》,ParCo,49,83-97(2015)
[7] 德梅尔,J。;Nguyen,H.D.,并行可再现求和,IEEE Trans。计算。,64, 7, 2060-2070 (2015) ·Zbl 1360.68042号
[8] Iakymchuk,R。;格雷亚特,S。;迪福,D。;Quintana-Orti,E.S.,推导可再现LU因子分解的层次方法,国际高性能计算杂志。申请。,33, 5, 791-803 (2019)
[9] Iakymchuk,R。;迪福,D。;Collange,S。;Graillat,S.,《可重复且精确的矩阵乘法》,Lect。注释计算。科学。,9553, 126-137 (2016) ·Zbl 1354.65082号
[10] Higham,N.J.,《数值算法的准确性和稳定性》,680(2002),宾夕法尼亚州费城,SIAM:SIAM·Zbl 1011.65010号
[11] 穆勒,J.-M。;北布里斯巴雷。;de Dinechin,F。;珍妮罗德,C.-P。;列夫雷,V。;Melquiond,G。;Revol,N。;Stehlé博士。;Torres,S.,《浮点运算手册》,572(2010),Birkhäuser·Zbl 1197.65001号
[12] 臀部,S.M。;Ogita,T。;Oishi,S.,精确浮点求和第二部分:符号、K-fold忠实和四舍五入到最近值,SIAM J.Sci。计算。,31, 2, 1269-1302 (2008) ·Zbl 1190.65074号
[13] Rump,S.M.,计算机辅助证明和自验证方法,(Einarsson,B.,科学计算准确性和可靠性手册(2005),SIAM),195-240
[14] Bailey,D.H.,《高精度计算:应用和挑战》,(ARITH-21(2013),IEEE会议录),1,主题演讲
[15] 卢茨,D.R。;Hinds,C.N.,用于可再现浮点求和的高精度锚定累加器,(ARITH-24(2017)会议记录,IEEE:IEEE伦敦,英国),98-105
[16] 北伯吉斯。;古德耶,C。;卢茨,D.R。;Hinds,C.N.,用于可重复浮点求和的高精度锚定累加器,IEEE Trans。计算。,68, 7, 967-978 (2019) ·Zbl 07093733号
[17] IEEE Computer Society,N.,IEEE浮点算法标准(2008),IEEE标准754-2008
[18] D.Mukunoki,T.Ogita,K.Ozaki,《多核体系结构中使用Ozaki方案的准确和可复制BLAS例程》,摘自:Proc。并行处理与应用数学国际会议,PPAM20192019,接受。
[19] Knuth,D.E.,《计算机编程的艺术:半数值算法》,第2卷(1969年),Addison-Wesley·Zbl 0191.18001号
[20] Ogita,T。;臀部,S.M。;Oishi,S.,《精确和和点积》,SIAM J.Sci。计算。,26, 1955-1988 (2005) ·Zbl 1084.65041号
[21] 库利什,美国。;Snyder,V.,《精确点积作为长间隔算术的基本工具》,《计算》,91,3,307-313(2011)·Zbl 1228.65073号
[22] Iakymchuk,R。;Collange,S。;迪福,D。;Graillat,S.,ExBLAS:可复制和准确的BLAS库,(作为SC15的一部分举行的NRE2015研讨会论文集。美国德克萨斯州奥斯汀,2015年11月15日至20日(2015年),LIP6,ICS,INRIA,DALI-LIRMM)
[23] Hida,Y。;Li,X.S。;Bailey,D.H.,四双精度浮点算法,(ARITH-15(2001)会议记录),155-162
[24] 博尔多,S。;Melquiond,G.,《FMA和正确取整和的仿真:使用取整到奇数的证明算法》,IEEE Trans。计算。,第57462-471页(2008年)·Zbl 1388.65200号
[25] Priest,D.M.,《任意精度浮点运算的算法》,(第十届IEEE计算机算术研讨会(1991),IEEE),132-143
[26] Wiesenberger,M。;Einkemmer,L。;持有,M。;古铁雷斯-米拉,A。;Xavier Saez,X。;Iakymchuk,R.,并行计算机体系结构上feltor代码和库的再现性、准确性和性能,计算。物理学。通信,238145-156(2019)
[27] HPCG-高性能共轭梯度(2015)
[28] Dongarra,J。;Heroux,M.A.,《走向高性能计算系统排名的新标准》(2013),桑迪亚国家实验室,桑迪娅报告SAND2013-4744
[29] 佩蒂特,A。;R.C.惠利。;Dongarra,J。;Cleary,A.,HPL——分布式内存计算机的高性能Linpack基准测试的可移植实现(2008)
[30] 福斯,L。;Hanrot,G。;列夫雷,V。;Pélissier,P。;Zimmermann,P.,MPFR:具有正确舍入的多精度二进制浮点库,ACM-Trans。数学。软件,33,2,13(2007)·Zbl 1365.65302号
[31] 臀部,S.M。;Ogita,T。;Oishi,S.,快速高精度求和,非线性理论应用。,1, 1, 2-24 (2010)
[32] J.Demmel,H.D.Nguyen,《快速再生浮点求和》,载于:《ARITH-21学报》,2013年,第163-172页。
[33] Nguyen,H.D。;Demmel,J.,《可复制的兽皮QR》(ARITH-22(2015)会议记录),152-159
[34] Ozaki,K。;Ogita,T。;Oishi,S。;Rump,S.M.,使用矩阵乘法快速例程进行矩阵乘法的无错误转换及其应用,Numer。算法,59,195-118(2012)·Zbl 1244.65062号
[35] Carson,E。;Higham,N.J.,通过三种精度的迭代求精加速线性系统的求解,SIAM J.Sci。计算。,40、2、A817-A847(2018)·Zbl 1453.65067号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。