乔尔克

混合精度Cholesky-QR分解及其在多核CPU上的应用。Cholesky-QR(Cholesky-QR)算法只需要在并行处理单元之间进行一次全局归约,并使用BLAS-3核进行大部分计算。因此,与其他正交化算法相比,CholQR在许多当前的计算机体系结构上获得了优越的性能,与算术运算相比,这种结构的通信变得越来越昂贵。尤其是当输入矩阵是高瘦的时候。不幸的是,CholQR的正交误差与输入矩阵的条件数成二次函数关系,当矩阵病态时,它在数值上是不稳定的。为了提高CholQR的稳定性,我们最近采用了混合精度算法;输入和输出矩阵在工作精度上,但它的一些中间结果积累在加倍精度上。本文分析了这种混合精度CholQR的数值性质。分析表明,通过选择性地使用倍增精度,混合精度CholQR的正交性误差仅与输入矩阵的条件数成线性关系。数值结果证明了混合精度CholQR在实际应用中改善了数值稳定性。然后我们研究它的性能。当目标硬件不支持所需的更高精度时,需要进行软件仿真。例如,使用软件仿真的双精度双精度工作64位双精度,混合精度CholQR需要的浮点指令比标准CholQR多8.5 imes$。另一方面,使用双倍精度的通信成本增加不太显著,并且我们在具有不同图形处理单元(GPU)的多核CPU上的性能结果表明,在更新的体系结构上,使用双双精度算法的开销正在降低,与通信相比,计算变得更便宜。因此,使用最新的NVIDIA GPU,混合精度CholQR仅比标准CholQR慢1.4 imes$。最后,我们给出了在具有多个gpu的多核CPU上使用混合精度CholQR避免Krylov子空间投影方法求解非对称线性方程组和对称特征值问题的实例研究。这些案例研究表明,通过对Krylov方法的这个小而关键的部分使用更高的精度,我们不仅可以提高解算器的整体数值稳定性,而且在某些情况下,还可以改善它们的性能。


参考文献中的数学12条)

显示第1到第12个结果,共12个。
按年份排序(引用)

  1. 卡森,艾琳;隆德,凯瑟琳;罗兹洛尼克,米罗斯拉夫;Thomas,Stephen:块Gram-Schmidt算法及其稳定性(2022)
  2. 卡森,艾琳;隆德,凯瑟琳;Rozložník,Miroslav:经典Gram-Schmidt块变体的稳定性(2021)
  3. 海姆,尼古拉斯J。;Pranesh,Srikara:利用低精度算法解决对称正定线性系统和最小二乘问题(2021)
  4. 福卡娅,武史;坎南、拉马塞山;中山由纪中;山本,裕坂;Yanagisawa,Yuka:用于计算病态矩阵的QR因子分解的移位Cholesky QR(2020)
  5. 阿尔韦曼,安德烈亚斯;巴瑟曼,阿希姆;本加茨,汉斯·约阿希姆;卡布诺,基督教;恩斯特,多米尼克;费斯克,霍尔格;富村,安松里;加尔贡,马丁;哈格,乔治;休伯,莎拉;哈克尔,托马斯;伊达,秋弘;伊玛库拉、阿基拉;川井,Masatoshi;克歇尔,西蒙尼;科鲁策,莫里茨;库斯,帕维尔;朗,布鲁诺;莱德尔,赫尔曼;玛宁,瓦莱丽;马雷克,安德烈亚斯;中岛,剑阁;尼美克,莉迪亚;路透社,卡斯滕;涟漪,迈克尔;Röhrig-Zöllner,梅尔文;樱井,铁杉;舍夫勒,马提亚斯;舍勒,克里斯托夫;沙赫扎德,费萨尔;西蒙斯·布拉姆比拉,丹尼洛;Thies,乔纳斯;Gerhard Wellein:在ELPA-AEO和ESSEX-II特征解算器项目中使用混合精度计算的好处(2019年)
  6. Barlow,Jesse L.:块修正的Gram-Schmidt算法及其分析(2019)
  7. 瓦吉,布卡拉姆;突厥语,乔治;David Keyes:从矩阵向量运算构造层次矩阵的随机GPU算法(2019)
  8. 格里戈里,劳拉;Tissot,Olivier:基于扩展Krylov子空间的可伸缩线性解算器(2019年)
  9. 托马斯安德烈斯。;Quintana Orí,Enrique S.:Cholesky和Gram-Schmidt正交化在图形处理器上的高瘦QR分解(2019)
  10. 李华民;克鲁格,尤瓦尔;Tygert,Mark:主成分分析和奇异值分解的分布式计算随机化算法(2018)
  11. Ralha,Rui:混合精度对分(2018)
  12. 山崎,一太郎;托莫夫,斯塔尼米尔;Dongarra,Jack:混合精度Cholesky QR分解及其在多核CPU和多GPU上的案例研究(2015)