马古莱斯、弗雷德里克;阿哈迈德(Abal-Kassim Cheik);罗马普塔诺维奇 图形处理单元集群上的自动调谐Krylov方法。 (英语) Zbl 1314.65049号 国际期刊计算。数学。 92,第6期,1222-1250(2015). 概要:Exascale计算机预计将具有高度分层结构,节点由多个核心处理器(CPU;中央处理器)和加速器(GPU;图形处理单元)组成。不同的编程级别产生了新的困难算法问题。特别是在求解超大型线性系统时,应根据科学方法的现代水平来定义和评估Krylov方法的新编程范式。迭代Krylov方法涉及线性代数运算,如点积、范数、向量相加和稀疏矩阵-向量乘法。对于大尺寸矩阵,这些操作的计算成本很高。在本文中,我们致力于在GPU上以双倍精度有效执行这些操作的最佳方法,以使迭代Krylov方法更加稳健,从而减少计算时间。我们的算法的性能是根据工程问题产生的几个矩阵进行评估的。数值实验表明,与现有库相比,我们的实现具有健壮性和准确性。我们处理了不同的预处理Krylov方法:对称正定矩阵的共轭梯度,以及广义共轭残差、双共轭梯度共轭残差,无转置拟最小残差、稳定双共轭梯度和稳定双共轭渐变\)用于求解具有非对称矩阵的稀疏线性系统。我们考虑并比较了几种稀疏压缩格式,并提出了一种在GPU和多核CPU上有效实现Krylov方法的方法。最后,我们根据问题特点和硬件变化,通过自动调整线程设计,给出了更快算法的策略。综上所述,我们提出并分析了混合子结构方法,为混合方法的扩展奠定了基础。 引用于1文件 MSC公司: 65层10 线性系统的迭代数值方法 65英尺50英寸 稀疏矩阵的计算方法 2005年5月 并行数值计算 65日元10 特定类别建筑的数值算法 关键词:Krylov方法;迭代法;线性代数;稀疏矩阵向量积;通用分组;CUDA公司;自动调谐;压缩-解析行格式;ELLPACK(ELL)格式;混合(HYB)格式;坐标(Coo)格式;尖刺;海关;CUBLAS公司;数值实验;算法 软件:CUSP公司;CUDA公司;ELLPACK公司;CUBLAS公司;海关;BFSAI-IC公司;ITPACK公司;ITPACKV二维 PDF格式BibTeX公司 XML格式引用 \textit{F.Magoulès}等人,《国际计算杂志》。数学。92,No.6,1222--1250(2015;Zbl 1314.65049) 全文: 内政部 参考文献: [1] Aliaga J.I.,《计算机科学讲义》7133第162页–(2010年) [2] Anzt H.,计算机科学讲稿7134 pp 237–(2010) [3] Bell N.,CUDA上的高效稀疏矩阵向量乘法 [4] Bell N.,Cusp:稀疏矩阵和图计算的通用并行算法(2012) [5] 内政部:10.1145/882262.882364·doi:10.1145/882262.882364 [6] Davis T.A.,ACM翻译。数学。Softw 38第1页–(2011年) [7] Gander M.J.,SIAM 44第699页–(2006年) [8] 内政部:10.1137/090779760·兹比尔1220.65037 ·doi:10.1137/090779760 [9] D.R.Kincaid、T.C.Oppe和D.M.Young,ITPACKV 2D用户指南,报告CNA-232,德克萨斯大学奥斯汀分校数学系,德克萨斯州奥斯汀,美国,1989年。 [10] 内政部:10.1145/882262.882363·数字对象标识代码:10.1145/882262.882363 [11] 内政部:10.1007/s11227-012-0825-3·doi:10.1007/s11227-012-0825-3 [12] Maday Y.,计算。方法应用。数学195 pp 3880–(2006) [13] DOI:10.1016/j.apm.2005.05.020·Zbl 1102.65126号 ·doi:10.1016/j.apm.2005.05.020 [14] 内政部:10.1002/fld.1243·Zbl 1157.65068号 ·doi:10.1002/fld.1243 [15] DOI:10.1016/j.cma.2005.05.059·Zbl 1173.74477号 ·doi:10.1016/j.cma.2005.05.059 [16] DOI:10.1016/j.apm.2005.06.016·Zbl 1104.65116号 ·doi:10.1016/j.apm.2005.06.016 [17] DOI:10.1016/j.compstruc.2004.02.025·doi:10.1016/j.com.pstruc.2004.02.025 [18] 内政部:10.1016/j.cma.2004.05.004·Zbl 1112.74444号 ·doi:10.1016/j.cma.2004.05.004 [19] 数字对象标识码:10.1142/S0218396X05002827·Zbl 1189.76390号 ·doi:10.1142/S0218396X05002827 [20] DOI:10.1016/j.cma.2005.01.022·Zbl 1126.74054号 ·doi:10.1016/j.cma.2005.01.022 [21] 内政部:10.1016/j.a.pm.2005.07.008·Zbl 1099.74070号 ·doi:10.1016/j.apm.2005.07.008 [22] 内政部:10.1080/00207160601168605·Zbl 1116.65123号 ·doi:10.1080/00207160601168605 [23] 英伟达公司,CUDA工具包参考手册,4。编辑(2011年) [24] Oberhuber T.,新的行分组CSR格式,用于在GPU上存储稀疏矩阵,并在CUDA中实现(2010) [25] Quarteroni A.,偏微分方程的区域分解方法(1999)·Zbl 0931.65118号 [26] 内政部:10.1137/1.9780898718003·数字对象标识代码:10.1137/1.9780898718003 [27] Toselli A.,区域分解方法:算法和理论(2005)·Zbl 1069.65138号 [28] 内政部:10.1002/cpe.1732·doi:10.1002/cpe.1732 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。