乔尔克

混合精度Cholesky-QR分解及其在多核CPU上的应用。Cholesky-QR(Cholesky-QR)算法只需要在并行处理单元之间进行一次全局归约,并使用BLAS-3核进行大部分计算。因此,与其他正交化算法相比,CholQR在许多当前的计算机体系结构上获得了优越的性能,与算术运算相比,这种结构的通信变得越来越昂贵。尤其是当输入矩阵是高瘦的时候。不幸的是,CholQR的正交误差与输入矩阵的条件数成二次函数关系,当矩阵病态时,它在数值上是不稳定的。为了提高CholQR算法的稳定性,我们最近采用了混合精度算法,输入和输出矩阵都在工作精度范围内,但它的一些中间结果却积累在双倍精度上。本文分析了这种混合精度CholQR的数值性质。分析表明,通过选择性地使用倍增精度,混合精度CholQR的正交性误差仅与输入矩阵的条件数成线性关系。数值结果证明了混合精度CholQR在实际应用中改善了数值稳定性。然后我们研究它的性能。当目标硬件不支持所需的更高精度时,需要进行软件仿真。例如,使用软件仿真的双精度双精度工作64位双精度,混合精度CholQR需要的浮点指令比标准CholQR多8.5 imes$。另一方面,使用双倍精度的通信成本增加不太显著,并且我们在具有不同图形处理单元(GPU)的多核CPU上的性能结果表明,在更新的体系结构上,使用双双精度算法的开销正在降低,与通信相比,计算变得更便宜。因此,使用最新的NVIDIA GPU,混合精度CholQR仅比标准CholQR慢1.4 imes$。最后,我们给出了在具有多个gpu的多核CPU上使用混合精度CholQR避免Krylov子空间投影方法求解非对称线性方程组和对称特征值问题的实例研究。这些案例研究表明,通过对Krylov方法的这个小而关键的部分使用更高的精度,我们不仅可以提高解算器的整体数值稳定性,而且在某些情况下,还可以改善它们的性能。


zbMATH中的参考文献(参考 9篇文章 参考)

显示第1到第9个结果,共9个。
按年份排序(引用)

  1. Fukaya,Takeshi;Kannan,Ramaseshan;Nakatsukasa,Yuki;Yamamoto,Yusaku;Yanagisawa,Yuka:用于计算病态矩阵QR因子分解的移位Cholesky QR(2020)
  2. 安德烈亚斯·阿尔韦曼;阿希姆·巴塞曼;本加茨,汉斯·约阿希姆;卡博诺,克里斯蒂安;恩斯特,多米尼克;费斯克,霍尔格;富塔姆拉,安苏诺里;加尔贡,马丁;哈格,乔治;胡贝尔,萨拉;哈克尔,托马斯;伊达,秋弘;伊玛库拉,阿基拉;川井,Masatoshi;Köcher,西蒙尼;克鲁泽,莫里茨;库斯·帕维尔;朗,布鲁诺;莱德勒,赫尔曼;马宁,瓦莱丽;马雷克,Andreas;Nakajima,Kengo;Nemec,Lydia;Reuter,Karsten;Ripple,Michael;Röhrig-Zöllner,Melven;Sakurai,Tetsuya;Scheffler,Matthias;Scheurer,Christoph;Shahzad,Faisal;Simoes Brambila,Danilo;Thies,Jonas;Wellein,Gerhard:在ELPA-AEO和ESSEX-II特征解算器项目中使用混合精度计算的好处(2019年)
  3. Barlow,Jesse L.:块修正的Gram-Schmidt算法及其分析(2019)
  4. Boukaram,Wajih;Turkiyah,George;Keyes,David:从矩阵向量运算构造层次矩阵的随机GPU算法(2019)
  5. Grigori,Laura;Tissot,Olivier:基于扩展Krylov子空间的可伸缩线性解算器(2019年)
  6. Tomás,Andrés E.;Quintana Orti,Enrique s.:Cholesky和Gram-Schmidt正交化在图形处理器上的高瘦QR分解(2019年)
  7. Li,Huamin;Kluger,Yuval;Tygert,Mark:主成分分析和奇异值分解的分布式计算随机化算法(2018)
  8. Ralha,Rui:混合精度对分(2018)
  9. Yamazaki,Ichitaro;Tomov,Stanimire;Dongarra,Jack:具有多个GPU的多核CPU的混合精度Cholesky QR分解及其案例研究(2015)