×

CholQR公司

swMATH ID: 13049
软件作者: 山崎一郎;斯坦尼米尔·托莫夫;杰克·东加拉
描述: 混合精度Cholesky QR分解及其在多gpu多核CPU上的案例研究。为了对稠密矩阵的列进行正交化,Cholesky QR(CholeQR)只需要在并行处理单元之间进行一次全局约简,并使用BLAS-3内核执行大部分计算。因此,与其他正交化算法相比,CholQR在许多当前计算机体系结构上获得了优越的性能,与算术运算相比,这些计算机体系结构的通信成本越来越高。当输入矩阵为高度奇异时,尤其如此。不幸的是,CholQR的正交性误差平方依赖于输入矩阵的条件数,并且当矩阵为病态矩阵时,它在数值上是不稳定的。为了增强CholQR的稳定性,我们最近使用了混合精度算法;输入和输出矩阵都在工作精度内,但它的一些中间结果是以加倍精度累积的。本文分析了这种混合精度CholQR的数值性质。我们的分析表明,通过选择性地使用加倍精度,混合精度CholQR的正交性误差仅与输入矩阵的条件数呈线性关系。我们提供的数值结果证明了混合精度ChloQR在实际中提高了数值稳定性。然后我们研究它的性能。当目标硬件不支持所需的更高精度时,需要进行软件仿真。例如,使用软件模拟的双精度64位双精度,混合精度CholQR所需的浮点指令比标准CholQRs所需的指令多大约\(8.5倍\)。另一方面,使用双精度的通信成本增加不太显著,我们在具有不同图形处理单元(GPU)的多核CPU上的性能结果表明,在较新的体系结构上使用双精度算法的开销正在减少,与通信相比,计算变得更加便宜。因此,使用最新的NVIDIA GPU,混合精度的CholQR仅比标准的CholQR慢1.4倍。最后,我们给出了在具有多个GPU的多核CPU上,在Krylov子空间投影方法的通信避免变体中使用混合精度CholQR来求解非对称线性方程组和对称特征值问题的案例研究。这些案例研究表明,通过对Krylov方法的这一小而关键的部分使用更高的精度,我们不仅可以提高求解器的整体数值稳定性,而且在某些情况下还可以提高其性能。
主页: http://epubs.siam.org/doi/ref/10.1137/14M0973773
关键词: 混合精度正交化GPU计算
相关软件: mctoolbox软件胆碱酯酶QR2伦敦北卡罗来纳州稀疏矩阵项目参考SICEDR公司洛佩克。CP浮动MPFR公司方块刺有趣XBLAS公司LAPACK公司PETSc公司爆破STRUMPACK系列CHOLMOD公司再现BLAS算法1014MPFI公司
引用于: 18文件
全部的 前5名

被76位作者引用

2 艾琳·克莱尔·卡森
2 尼古拉斯·海姆。
2 凯瑟琳·隆德
2 米罗斯拉夫·罗兹洛日尼克
2 邵美月
1 安德烈亚斯·阿尔弗曼
1 杰西·巴洛。
1 罗伯特·巴里奥
1 阿希姆·巴瑟曼
1 西尔维·博尔多
1 瓦吉·哈利姆·博卡拉姆
1 汉斯·约阿希姆·本加茨
1 克里斯蒂安·卡波尼奥
1 马蒂奥·克罗齐
1 贾科莫·罗西略·德索萨
1 杰克·多加拉(Jack J.Dongarra)。
1 杜培兵
1 多米尼克·恩斯特
1 霍尔格·费斯克
1 Fukaya,武史
1 福塔穆拉,Yasunori
1 马丁·加尔贡
1 劳拉·格里戈里
1 乔治·海格
1 莎拉·休伯(Sarah E.Huber)。
1 托马斯·基利安·哈克尔
1 伊达,秋叶茂
1 Akira今仓
1 克劳德·皮埃尔·珍妮罗德
1 姜浩
1 拉马塞珊·坎南
1 Masatoshi卡瓦伊
1 戴维·埃利奥特·凯斯
1 尤瓦尔·克鲁格
1 西蒙·科彻
1 丹尼尔·克雷斯纳
1 莫里茨·克鲁泽
1 库斯,帕维尔
1 布鲁诺·朗
1 赫尔曼·莱德勒
1 李传英
1 李华敏
1 李凯丽
1 马玉欣
1 瓦莱里·马宁
1 安德烈亚斯·马雷克
1 西奥·A·玛丽。
1 纪尧姆·梅尔金德
1 Jean-Michel穆勒
1 中岛贤吾
1 中冢,Yuji
1 利迪亚·奈梅克
1 斯里卡拉·普拉内什
1 全哲
1 恩里克·金塔纳·奥尔蒂。
1 瑞·拉哈
1 路透社,卡斯滕
1 迈克尔·里普
1 梅尔文·Röhrig-Zöllner
1 日本樱井
1 马蒂亚斯·谢夫勒
1 克里斯托弗·舍勒
1 费萨尔·沙赫扎德
1 达尼洛·西蒙斯·布兰比拉
1 Thies,乔纳斯
1 史蒂芬·托马斯。
1 奥利维·蒂索特
1 Tomás,Andrés E。
1 斯坦尼米尔·托莫夫。
1 乔治·M·特基亚。
1 马克·提格特
1 格哈德·韦林
1 肖雄
1 山本、优胜
1 山崎一郎
1 Yuka Yanagisawa

按年份列出的引文