×

利用低精度算法求解对称正定线性系统和最小二乘问题。 (英语) Zbl 1467.65023号

摘要:当\(a\)是对称正定的且在其他方面是非结构化的时,在给定精度的算术中求解线性系统\(Ax=b\)的最快方法是什么?通常的答案是通过Cholesky因式分解,假设(A\)可以因式分解。我们开发了一种速度更快的算法,给出了一种精度低于工作精度的算法以及(可选)一种精度更高的算法。例如,算术的精度可以是一半、一倍和两倍;一半和两倍,可能是四倍;或者单双,可能有四双。我们以较低的精度计算Cholesky因子分解,并在基于GMRES的迭代求精中使用这些因子作为预条件。为了避免分解失败,我们将矩阵移位一个小倍数的对角线。我们解释了为什么这比通常的单位矩阵的倍数移位的方法更可取。我们还加入了缩放,以避免在IEEE半精度算法中工作时溢出并减少下溢的机会。通过构造和求解法方程,我们将该算法推广到求解具有条件良好系数矩阵的线性最小二乘问题。在这两种算法中,只要迭代求精和内部迭代求解器快速收敛,大多数工作都是在低精度下完成的。我们解释了为什么用共轭梯度法代替GMRES会导致失去收敛保证,但我们表明这种改变在实际中对收敛几乎没有影响。我们的数值实验证实了新算法在支持多种算法精度的环境中提供更快解决方案的潜力。

MSC公司:

65平方英尺 线性系统和矩阵反演的直接数值方法
65F08个 迭代方法的前置条件
65层35 矩阵范数、条件、缩放的数值计算
65层10 线性系统的迭代数值方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] A.Abdelfattah、S.Tomov和J.Dongarra,《走向复矩阵的半精度计算:GPU上混合精度解算器的案例研究》,载于2019年IEEE/ACM第十届大型系统可缩放算法最新进展研讨会论文集(ScalA),丹佛,科罗拉多州,美国,2019年,第17-24页,https://doi.org/10.109/ScalA49573.2019.0008。
[2] A.Abdelfattah、S.Tomov和J.Dongarra,《使用GPU研究对称正定矩阵的FP16混合决策解算器的益处》,载于《计算科学—CCS2020》,V.V.Krzhizhanovskaya、G.Zaívodszky、M.H.Lees、J.J.Dongearra、P.M.A.Sloot、S.Brissos和J.Teixeira,eds.《计算讲义》。科学。12138,查姆施普林格,2020年,第237-250页,https://doi.org/10.1007/978-3-030-50417-5_18。
[3] Arm A\(64)指令集体系结构:Armv8,用于Armv8-A体系结构概要,Arm Limited,英国剑桥,2019年,https://developer.arm.com/docs/ddi0596/e。
[4] \AA。Bjo¨rck,最小二乘问题的数值方法,SIAM,费城,1996,https://doi.org/10.1137/1.9781611971484。 ·Zbl 0847.65023号
[5] P.Blanchard、N.J.Higham、F.Lopez、T.Mary和S.Pranesh,《混合精度块融合乘法加法:误差分析及在GPU张量核中的应用》,SIAM J.Sci。计算。,42(2020年),第C124-C141页,https://doi.org/10.1137/19M1289546。 ·Zbl 1452.65425号
[6] I.Buck,世界上速度最快的超级计算机,其性能记录翻了三倍,https://blogs.nvidia.com/blog/2019/06/17/hpc-ai-performance-record-summit/2019年6月24日访问)。
[7] E.Carson和N.J.Higham,《迭代求精的新分析及其在病态稀疏线性系统精确解中的应用》,SIAM J.Sci。计算。,39(2017),第A2834-A2856页,https://doi.org/10.1137/17M1122918。 ·Zbl 1379.65019号
[8] E.Carson和N.J.Higham,通过三种精度的迭代求精加速线性系统的求解,SIAM J.Sci。计算。,40(2018年),第A817-A847页,https://doi.org/10.1137/17M1140819。 ·Zbl 1453.65067号
[9] E.Carson、N.J.Higham和S.Pranesh,基于三精度GMRES的最小二乘问题迭代求精,SIAM J.Sci。计算。,42(2020年),第A4063-A4083页,https://doi.org/10.1137/20M1316822。 ·Zbl 1461.65032号
[10] T.A.Davis和Y.Hu,佛罗里达大学稀疏矩阵收集,ACM Trans。数学。软件,38(2011),1,https://doi.org/10.1145/2049662.2049663。 ·Zbl 1365.65123号
[11] J.W.Demmel,《关于Cholesky中的浮点错误》,技术报告CS-89-87,LAPACK工作说明14,田纳西大学计算机科学系,美国田纳西州诺克斯维尔,1989年。
[12] J.Dongarra,富士通Fugaku系统报告,技术报告ICL-UT-20-06,美国田纳西大学创新计算实验室,田纳西州诺克斯维尔,2020年,https://www.icl.utk.edu/publications/report-fujitsu-fugaku-system。
[13] J.Dongarra、M.Gates、A.Haidar、J.Kurzak、P.Luszczek、S.Tomov和I.Yamazaki,用GPU加速数值密集线性代数计算,收录于《用GPU进行数值计算》,V.Kindratenko,ed.,Springer,Cham,2014年,第3-28页,https://doi.org/10.1007/978-3-319-06548-9_1。 ·Zbl 1317.65078号
[14] Z.Drmač,《计算特征值和奇异值以获得高相对精度》,第二版,《线性代数手册》,L.Hogben,ed.,Chapman和Hall/CRC,佛罗里达州博卡拉顿,2014年,第59.1-59.21页。
[15] H.-R.Fang和D.P.O'Leary,《修改的Cholesky算法:新方法目录》,数学。程序。,115(2008),第319-349页,https://doi.org/10.1007/s10107-007-0177-6。 ·Zbl 1156.65023号
[16] T.Fukaya、R.Kannan、Y.Nakatsukasa、Y.Yamamoto和Y.Yanagisawa,计算病态矩阵QR因式分解的移位Cholesky QR,SIAM J.Sci。计算。,42(2020年),第A477-A503页,https://doi.org/10.1137/18M1218212。 ·Zbl 1434.65041号
[17] A.Greenbaum,估算递归计算残差法的可达到精度,SIAM J.矩阵分析。申请。,18(1997),第535-551页,https://doi.org/10.1137/S0895479895284944。 ·Zbl 0873.65027号
[18] A.Haidar、A.Abdelfattah、M.Zounon、P.Wu、S.Pranesh、S.Tomov和J.Dongarra,《快速节能线性解算器的设计:半精度算法和迭代求精技术的潜力》,载于《计算科学》2018年,Y.Shi、H.Fu、Y.Tian、V.V.Krzhizhanovskaya、M.H.Lees、J.Dongearra和P.M.A。Sloot,eds.,Springer,Cham,2018年,第586-600页,https://doi.org/10.1007/978-3-319-93698-7_45。
[19] A.Haidar、H.Bayraktar、S.Tomov、J.Dongarra和N.J.Higham,使用GPU上的张量核加速线性系统求解的混合精度迭代求精,Proc。R.Soc.A,476(2020),20200110,https://doi.org/10.1098/rspa.2020.0110。 ·Zbl 1472.65174号
[20] A.Haidar、S.Tomov、J.Dongarra和N.J.Higham,《利用GPU张量核快速FP16算法加速混合精度迭代求精求解器》,载《高性能计算、网络、存储和分析国际会议论文集》,SC'18(德克萨斯州达拉斯),IEEE,美国新泽西州皮斯卡塔韦,2018年,第603-613页,https://doi.org/10.109/SC.2018.00050。
[21] N.J.Higham,《数值算法的准确性和稳定性》,第二版,SIAM,费城,2002年,https://doi.org/10.1137/1.9780898718027。 ·Zbl 1011.65010号
[22] N.J.Higham,《标准和基于GMRES的二精度和三精度迭代精化的误差分析》,MIMS EPrint 2019.19,英国曼彻斯特大学曼彻斯特数学科学研究所,2019年,http://eprints.mathemats.manchester.ac.uk/2735/。
[23] N.J.Higham和T.Mary,概率舍入误差分析的新方法,SIAM J.Sci。计算。,41(2019),第A2815-A2835页,https://doi.org/10.1137/18M1226312。 ·Zbl 07123205号
[24] N.J.Higham和S.Pranesh,《模拟低精度浮点算法》,SIAM J.Sci。计算。,41(2019年),第C585-C602页,https://doi.org/10.1137/19M1251308。 ·Zbl 07124603号
[25] N.J.Higham、S.Pranesh和M.Zounon,将矩阵压缩为半精度,并应用于求解线性系统,SIAM J.Sci。计算。,41(2019),第A2536-A2551页,https://doi.org/10.1137/18M1229511。 ·Zbl 1420.65017号
[26] N.J.Higham和G.W.Stewart,《统计计算中的数值线性代数》,载于《数值分析的最新进展》,A.Iserles和M.J.D.Powell主编,牛津大学出版社,英国牛津,1987年,第41-57页·Zbl 0615.65048号
[27] IEEE浮点运算标准,见IEEE Std 754-2008(IEEE Std 754-1985修订版),IEEE,纽约,2008年,第1-70页,https://doi.org/10.109/IEEESTD.2008.4610935。
[28] Intel Corporation,bfloat16-Hardware Numerics Definition,白皮书,文件号338302-001US,2018,https://software.intel.com/en-us/download/bfloat16-hardware-numerics-definition。
[29] GPU和多核架构矩阵代数(MAGMA),2020年,http://icl.cs.utk.edu/magama/(http://icl.c.utk.edu/magama)。
[30] 多精度计算工具箱,Advanpix,东京,2020年,http://www.advanpix.com。
[31] Y.Saad,《稀疏线性系统的迭代方法》,第2版,SIAM,费城,2003年,https://doi.org/10.1137/1.9780898718003。 ·Zbl 1031.65046号
[32] R.B.Schnabel和E.Eskow,新修改的Cholesky因子分解,SIAM J.Sci。统计师。计算。,11(1990),第1136-1158页,https://doi.org/10.1137/0911064。 ·Zbl 0716.65023号
[33] S.Tomov、J.Dongarra和M.Baboulin,混合GPU加速多核系统的密集线性代数,并行计算。,36(2010年),第232-240页,https://doi.org/10.1016/j.parco.2009.12.005。 ·Zbl 1204.68268号
[34] S.Tomov、R.Nath、H.Ltaief和J.Dongarra,《带GPU加速器的多核稠密线性代数求解器》,摘自2010年IEEE并行与分布式处理国际研讨会论文集,研讨会和博士论坛(IPDPSW),美国佐治亚州亚特兰大,IEEE,新泽西州皮斯卡塔韦,2010年,第1-8页,https://doi.org/10.109/IPDPSW.2010.5470941。
[35] T.Trader、Cray、AMD将延长DOE的Exascale边界,https://www.hpcwire.com/2019/05/07/cray-amd-exascale-frontier-at-oak-ridge网站/,HPCwire,2019年(2019年6月27日访问)。
[36] A.van der Sluis,条件数和矩阵平衡,数值。数学。,14(1969),第14-23页,https://doi.org/10.1007/BF02165096。 ·Zbl 0182.48906号
[37] B.Waldeín、R.Karlson和J.-G.Sun,线性最小二乘问题的最优后摄动界,数值。线性代数应用。,2(1995年),第271-286页,https://doi.org/10.1002/nla.1680020308。 ·Zbl 0848.65025号
[38] J.H.Wilkinson,《代数过程的先验误差分析》,载于《国际数学家大会论文集》(莫斯科,1966年),I.G.Petrovsky编辑,和平号,莫斯科,1968年,第629-640页·兹比尔0197.13301
[39] Y.Yamamoto、Y.Nakatsukasa、Y.Yanagisawa和T.Fukaya,CholeskyQR2算法的舍入误差分析,Electron。事务处理。数字。分析。,44(2015),第306-326页,http://etna.mcs.kent.edu/volumes/2011-2020/vol44/abstract.php?vol=44&pages=306-326中·Zbl 1330.65049号
[40] I.Yamazaki、S.Tomov和J.Dongarra,混合精度Cholesky QR分解及其在多GPU多核CPU上的案例研究,SIAM J.Sci。计算。,37(2015),第C307-C330页,https://doi.org/10.1137/14M0973773。 ·Zbl 1320.65046号
[41] I.Yamazaki、S.Tomov和J.Dongarra,带GPU的多核CPU上各种奇异值QR实现的稳定性和性能,ACM Trans。数学。软件,43(2016),10,https://doi.org/10.1145/2898347。 ·Zbl 1391.65093号
[42] Y.Yanagisawa,T.Ogita,S.Oishi,精确逆Cholesky因式分解的改进算法,非线性理论应用。,5(2014),第35-46页,https://doi.org/10.1587/nolta.5.35。 ·Zbl 1309.65032号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。