文件Zbl 1314.65049-zbMATH打开

马古莱斯、弗雷德里克;阿哈迈德（Abal-Kassim Cheik）;罗马普塔诺维奇

图形处理单元集群上的自动调谐Krylov方法。（英语） Zbl 1314.65049号

国际期刊计算。数学。 92，第6期，1222-1250（2015）.

概要：Exascale计算机预计将具有高度分层结构，节点由多个核心处理器（CPU；中央处理器）和加速器（GPU；图形处理单元）组成。不同的编程级别产生了新的困难算法问题。特别是在求解超大型线性系统时，应根据科学方法的现代水平来定义和评估Krylov方法的新编程范式。迭代Krylov方法涉及线性代数运算，如点积、范数、向量相加和稀疏矩阵-向量乘法。对于大尺寸矩阵，这些操作的计算成本很高。在本文中，我们致力于在GPU上以双倍精度有效执行这些操作的最佳方法，以使迭代Krylov方法更加稳健，从而减少计算时间。我们的算法的性能是根据工程问题产生的几个矩阵进行评估的。数值实验表明，与现有库相比，我们的实现具有健壮性和准确性。我们处理了不同的预处理Krylov方法：对称正定矩阵的共轭梯度，以及广义共轭残差、双共轭梯度共轭残差，无转置拟最小残差、稳定双共轭梯度和稳定双共轭渐变\)用于求解具有非对称矩阵的稀疏线性系统。我们考虑并比较了几种稀疏压缩格式，并提出了一种在GPU和多核CPU上有效实现Krylov方法的方法。最后，我们根据问题特点和硬件变化，通过自动调整线程设计，给出了更快算法的策略。综上所述，我们提出并分析了混合子结构方法，为混合方法的扩展奠定了基础。

引用于1文件

MSC公司：

65层10	线性系统的迭代数值方法
65英尺50英寸	稀疏矩阵的计算方法
2005年5月	并行数值计算
65日元10	特定类别建筑的数值算法

关键词：

Krylov方法;迭代法;线性代数;稀疏矩阵向量积;通用分组;CUDA公司;自动调谐;压缩-解析行格式;ELLPACK（ELL）格式;混合（HYB）格式;坐标（Coo）格式;尖刺;海关;CUBLAS公司;数值实验;算法

软件：

CUSP公司;CUDA公司;ELLPACK公司;CUBLAS公司;海关;BFSAI-IC公司;ITPACK公司;ITPACKV二维

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Aliaga J.I.，《计算机科学讲义》7133第162页–（2010年）
[2]	Anzt H.，计算机科学讲稿7134 pp 237–（2010）
[3]	Bell N.，CUDA上的高效稀疏矩阵向量乘法
[4]	Bell N.，Cusp：稀疏矩阵和图计算的通用并行算法（2012）
[5]	内政部：10.1145/882262.882364·doi:10.1145/882262.882364
[6]	Davis T.A.，ACM翻译。数学。Softw 38第1页–（2011年）
[7]	Gander M.J.，SIAM 44第699页–（2006年）
[8]	内政部：10.1137/090779760·兹比尔1220.65037 ·doi:10.1137/090779760
[9]	D.R.Kincaid、T.C.Oppe和D.M.Young，ITPACKV 2D用户指南，报告CNA-232，德克萨斯大学奥斯汀分校数学系，德克萨斯州奥斯汀，美国，1989年。
[10]	内政部：10.1145/882262.882363·数字对象标识代码：10.1145/882262.882363
[11]	内政部：10.1007/s11227-012-0825-3·doi:10.1007/s11227-012-0825-3
[12]	Maday Y.，计算。方法应用。数学195 pp 3880–（2006）
[13]	DOI:10.1016/j.apm.2005.05.020·Zbl 1102.65126号 ·doi:10.1016/j.apm.2005.05.020
[14]	内政部：10.1002/fld.1243·Zbl 1157.65068号 ·doi:10.1002/fld.1243
[15]	DOI:10.1016/j.cma.2005.05.059·Zbl 1173.74477号 ·doi:10.1016/j.cma.2005.05.059
[16]	DOI:10.1016/j.apm.2005.06.016·Zbl 1104.65116号 ·doi:10.1016/j.apm.2005.06.016
[17]	DOI:10.1016/j.compstruc.2004.02.025·doi:10.1016/j.com.pstruc.2004.02.025
[18]	内政部：10.1016/j.cma.2004.05.004·Zbl 1112.74444号 ·doi:10.1016/j.cma.2004.05.004
[19]	数字对象标识码：10.1142/S0218396X05002827·Zbl 1189.76390号 ·doi:10.1142/S0218396X05002827
[20]	DOI:10.1016/j.cma.2005.01.022·Zbl 1126.74054号 ·doi:10.1016/j.cma.2005.01.022
[21]	内政部：10.1016/j.a.pm.2005.07.008·Zbl 1099.74070号 ·doi:10.1016/j.apm.2005.07.008
[22]	内政部：10.1080/00207160601168605·Zbl 1116.65123号 ·doi:10.1080/00207160601168605
[23]	英伟达公司，CUDA工具包参考手册，4。编辑（2011年）
[24]	Oberhuber T.，新的行分组CSR格式，用于在GPU上存储稀疏矩阵，并在CUDA中实现（2010）
[25]	Quarteroni A.，偏微分方程的区域分解方法（1999）·Zbl 0931.65118号
[26]	内政部：10.1137/1.9780898718003·数字对象标识代码：10.1137/1.9780898718003
[27]	Toselli A.，区域分解方法：算法和理论（2005）·Zbl 1069.65138号
[28]	内政部：10.1002/cpe.1732·doi:10.1002/cpe.1732

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

图形处理单元集群上的自动调谐Krylov方法。（英语） Zbl 1314.65049号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

图形处理单元集群上的自动调谐Krylov方法。 （英语） Zbl 1314.65049号

MSC公司：

关键词：

软件：

参考文献：

图形处理单元集群上的自动调谐Krylov方法。（英语） Zbl 1314.65049号