×

图形处理单元集群上的自动调谐Krylov方法。 (英语) Zbl 1314.65049号

概要:Exascale计算机预计将具有高度分层结构,节点由多个核心处理器(CPU;中央处理器)和加速器(GPU;图形处理单元)组成。不同的编程级别产生了新的困难算法问题。特别是在求解超大型线性系统时,应根据科学方法的现代水平来定义和评估Krylov方法的新编程范式。迭代Krylov方法涉及线性代数运算,如点积、范数、向量相加和稀疏矩阵-向量乘法。对于大尺寸矩阵,这些操作的计算成本很高。在本文中,我们致力于在GPU上以双倍精度有效执行这些操作的最佳方法,以使迭代Krylov方法更加稳健,从而减少计算时间。我们的算法的性能是根据工程问题产生的几个矩阵进行评估的。数值实验表明,与现有库相比,我们的实现具有健壮性和准确性。我们处理了不同的预处理Krylov方法:对称正定矩阵的共轭梯度,以及广义共轭残差、双共轭梯度共轭残差,无转置拟最小残差、稳定双共轭梯度和稳定双共轭渐变\)用于求解具有非对称矩阵的稀疏线性系统。我们考虑并比较了几种稀疏压缩格式,并提出了一种在GPU和多核CPU上有效实现Krylov方法的方法。最后,我们根据问题特点和硬件变化,通过自动调整线程设计,给出了更快算法的策略。综上所述,我们提出并分析了混合子结构方法,为混合方法的扩展奠定了基础。

MSC公司:

65层10 线性系统的迭代数值方法
65英尺50英寸 稀疏矩阵的计算方法
2005年5月 并行数值计算
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aliaga J.I.,《计算机科学讲义》7133第162页–(2010年)
[2] Anzt H.,计算机科学讲稿7134 pp 237–(2010)
[3] Bell N.,CUDA上的高效稀疏矩阵向量乘法
[4] Bell N.,Cusp:稀疏矩阵和图计算的通用并行算法(2012)
[5] 内政部:10.1145/882262.882364·doi:10.1145/882262.882364
[6] Davis T.A.,ACM翻译。数学。Softw 38第1页–(2011年)
[7] Gander M.J.,SIAM 44第699页–(2006年)
[8] 内政部:10.1137/090779760·兹比尔1220.65037 ·doi:10.1137/090779760
[9] D.R.Kincaid、T.C.Oppe和D.M.Young,ITPACKV 2D用户指南,报告CNA-232,德克萨斯大学奥斯汀分校数学系,德克萨斯州奥斯汀,美国,1989年。
[10] 内政部:10.1145/882262.882363·数字对象标识代码:10.1145/882262.882363
[11] 内政部:10.1007/s11227-012-0825-3·doi:10.1007/s11227-012-0825-3
[12] Maday Y.,计算。方法应用。数学195 pp 3880–(2006)
[13] DOI:10.1016/j.apm.2005.05.020·Zbl 1102.65126号 ·doi:10.1016/j.apm.2005.05.020
[14] 内政部:10.1002/fld.1243·Zbl 1157.65068号 ·doi:10.1002/fld.1243
[15] DOI:10.1016/j.cma.2005.05.059·Zbl 1173.74477号 ·doi:10.1016/j.cma.2005.05.059
[16] DOI:10.1016/j.apm.2005.06.016·Zbl 1104.65116号 ·doi:10.1016/j.apm.2005.06.016
[17] DOI:10.1016/j.compstruc.2004.02.025·doi:10.1016/j.com.pstruc.2004.02.025
[18] 内政部:10.1016/j.cma.2004.05.004·Zbl 1112.74444号 ·doi:10.1016/j.cma.2004.05.004
[19] 数字对象标识码:10.1142/S0218396X05002827·Zbl 1189.76390号 ·doi:10.1142/S0218396X05002827
[20] DOI:10.1016/j.cma.2005.01.022·Zbl 1126.74054号 ·doi:10.1016/j.cma.2005.01.022
[21] 内政部:10.1016/j.a.pm.2005.07.008·Zbl 1099.74070号 ·doi:10.1016/j.apm.2005.07.008
[22] 内政部:10.1080/00207160601168605·Zbl 1116.65123号 ·doi:10.1080/00207160601168605
[23] 英伟达公司,CUDA工具包参考手册,4。编辑(2011年)
[24] Oberhuber T.,新的行分组CSR格式,用于在GPU上存储稀疏矩阵,并在CUDA中实现(2010)
[25] Quarteroni A.,偏微分方程的区域分解方法(1999)·Zbl 0931.65118号
[26] 内政部:10.1137/1.9780898718003·数字对象标识代码:10.1137/1.9780898718003
[27] Toselli A.,区域分解方法:算法和理论(2005)·Zbl 1069.65138号
[28] 内政部:10.1002/cpe.1732·doi:10.1002/cpe.1732
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。